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运行 过 程 中 内 存 的 运行 时 结构 ; 从 操作 系统 设计 者 的 视角 ， 用 体系 的 思想 方法 ， 深 
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A S 
为 什么 写 这 本 书 
第 1 版 与 第 2 版 的 区 别 
本 书 内 容 及 特色 
为 什么 本 书 选 用 Linux 0.11 内 核 
致谢 
第 1 章 ”从 开机 加 电 到 执行 main 函 数 之 前 的 过 程 
1.1 局 动 BIOS， 准 备 实 模式 下 的 中 断 问 量 表 和 
中 断 服务 程序 
1.1.1 BIOS 的 启动 原理 
1.1.2 ”BIOS 在 内 存 中 加 载 中 断 问 量 表 和 中 断 
服务 程序 
1.2 “加载 操作 系统 内 核 程序 并 为 保护 模式 做 准 
第 


1.3 ”开始 向 32 位 模式 转变 ， 为 main 范 数 的 调用 


1.3.2 ”设置 中 断 描 述 符 表 和 全 局 摘 述 符 表 
1.3.3 ”打开 A20， 实 现 32 位 寻 址 


2.8 开机 局 动 时 间 设 置 
2.9 初始 化 进程 0 
2.9.1 初始 化 进程 0 


2.9.3 ”设置 系统 调 月 
2.10 ”初始 化 缓冲 区 管理 结构 
2.11 初始 化 硬盘 
2.12 RARA 


在 task[64] 中 为 进程 1 申请 一 个 空 闻 位 


3.1.3 ”调用 copy_process ÉK% 


3.1.5 “进程 1 共享 进程 0 的 文件 


3.1.6 ”设置 进程 1 在 GDT 中 的 表 项 
3.1.7 ”进程 1 处 于 就 绪 态 


3.3.3 ”进程 1 在 根 设备 上 加 载 根 文件 系统 
3.4 ”本章 小 结 


.2 ”检测 shell 文 件 
为 shell 程 序 的 执行 做 准备 
4.3.4 ”执行 shell 程 序 


5.4.2 STEHT A 


5.8.1 对 文件 的 删除 条 件 进行 检查 
进行 具体 的 删除 工作 


内 核 分 页 
63 一 个 用 户 进 程 从 创建 到 退出 的 完整 过 下 


”缓冲 区 的 总 体 结构 
7.3 b_dev、b_blocknrAX —" FA 


7.4.2 b_dirth/F A 


7.4.3 iuptodate、i_dirt 和 s_dirt 的 作用 


7.5 count、lock、wait、request 的 作用 


i_count 的 作用 
7.5.3”b_lock、*b_wait 的 作 


综合 实例 


8.1.2 ”管道 的 操作 
8.2 ”信号 机 制 
8.2.2 信号 对 进程 执行 状态 的 影响 
本 章 小 结 


第 9 章 “操作 系统 的 设计 指导 思想 


建立 主刀 机制 的 决定 性 因 


9.5.1 非 用 户 进程 一 一 进程 0、 进 程 1、shell 


Ha 
为 什么 写 这 本 书 


很 早 束 有 一 个 想法 ， 做 中 国人 自己 的 、 有 所 
突破 、 有 所 创新 的 操作 系统 、 计 算 机 语言 及 编译 
ere 


Bere A Br AY 主要 由 中 国 科 学 院 
人 研究生 院 毕业 的 学 生 组 成 ) 在 实际 开发 目 己 的 操 
作 系 统 的 过 程 中 ， 最 先 允 到 的 问题 束 定 如 何 培 养 
学 生 真正 看 储 Linux 操 作 系统 的 源 代 码 的 能 力 。 开 
源 的 Linux 操 作 系统 的 源 代 码 很 容易 找到 ， 但 很 快 
驶 会 发 现 ， 塔 弈 学 生 看 全 Linux 操 作 系统 的 源 代码 
re PPA Fs MEH SF o 


操作 系统 的 代码 量 通 季 都 是 非 闻 庞 大 的 ， 动 
圭 儿 百 万 行 ， 即 使 浏 友 一 过 也 要 很 长 时 间 。 比 庞 
KRBE REF SAMER ERER RA AIN 
其 错 红 复 洒 的 关系 。 看 上 去 ， 代 码 的 执行 序 时 隐 
时 更， 很 难 抓 住 脉 络 。 代 码 之 间 相 互 牵 扯 ， 相 互 
AE, JP AIRE Ae, BRA ERS 
后 的 原理 、 意 图 和 思想 。 


对 于 学 生 而 言 ， 选 择 从 源 代 人 码 的 什么 地 方 开 
始 分 机 ， 本 吴 吏 是 一 个 难题 。 ， 学 生 有 两 种 
选择 : 一 种 是 从 main 函 效 ， 也 吏 是 从 C 语 言 代码 
的 忌 入 口 开 始 ， 疝 看 源 代码 的 调用 路 线 一 行 一 行 
地 看 下 去 ， 学 生 很 快 整 会 发 现 源 代 码 的 调用 路 线 
英名 其 妙 地 断 了 ， 但 直觉 和 常识 告诉 他 操作 系统 
肯定 不 会 在 这 个 地 方 停止 ,一 定 还 在 继续 运行 ， 


却 不 知道 后 续 的 代码 在 哪里 ， 这 种 方法 很 快 束 走 
进 了 死 明 同 ; 为 一 种 则 是 从 茶 一 模块 入 手 ， 如 文 
件 系统 ， 但 这 样 会 无 形 中 切断 操作 系统 源码 之 间 
复 末 的 关系 ， 如 文件 系统 与 进程 绾 理 的 关系 ， 文 
件 系统 与 内 存 定理 的 关系 ， 等 等 。 学 生 如 来 忻 江 
地 去 理解 一 个 模块 ， 往 往 只 能 记 住 一 些 名 词 和 何 
日 概念 ， 难 以 真正 理解 操作 系统 的 全 有 狐 。 用 学 生 
的 话 讲 ， 他 们 理解 的 操作 系统 变 成 了 “文科 ”的 操 
作 系 统 。 


由 于 操作 系统 是 的 层 系统 程序 ， 对 应 用 程序 
行 之 有 效 的 调试 和 跟 踩 符 手段 对 操作 系统 的 兰 代 
人 码 而 吝 ， 儿 乎 无 效 。 学 生 束 算 把 每 一 行 源 代码 者 
AEI, SME RAR AAT >, AER Te 
一 个 for 循 环 ， 那 一 行 是 一 个 调用 .……… 但 仍然 不 知 


道 整 个 代码 守 竞 在 做 什么 以 及 起 到 什么 作用 ， 更 
不 知道 设计 痢 的 意图 究竟 是 什么 。 


学 生 在 操作 系统 课程 上 学 习 过 进程 管理 、 内 
存 管理 、 文 件 系统 等 基础 知识 ， 但 是 对 这 些 空洞 
的 理论 在 一 个 实际 的 操作 系统 中 是 如 何 实现 的 却 
不 得 而 知 。 他 们 在 源 代 码 中 很 难看 出 进程 和 内 存 
之 间 有 什么 关联 ， 内 核 程 序 和 用 户 程 序 有 什么 区 
别 ， 为 什么 要 有 这 些 区 别 ;， 也 很 难 从 源 代码 中 看 
消 楚 ， 我 们 实际 经 党 用 到 的 操作 ， 比 如 打开 文 
件 ， 控 作 系 统 在 其 中 都 做 了 哪些 具体 的 工作 。 想 
在 与 音 见 的 应 用 程序 的 编程 方法 有 巨大 老 异 的 、 
EOE EHS ` PERA UNE BIERE R AURERE 
找到 这 些 问 题 的 答案 ， 似 乎 比 登 天 还 难 。 


对 熟悉 操作 系统 源 代码 的 学 生 而 言 ， 他 们 也 
ANE Ra UIA ATA, AES PRA oP 
TATE SERRA, (Bem Be is SE ER aE IL 
制 育 后 的 深刻 意义 。 


这 些 都 是 学 生 在 学 习 Linux 操 作 系 统 源 代 码 时 
明 到 的 实际 问题 。 中 国 科 学 院 人 研究生 院 的 学 生 应 
该 是 年 输 人 中 的 佼佼 着 ， 他 们 过 到 的 问题 可 能 其 
他 读者 也 会 过 到 。 我 蝴 发 了 一 个 想法 ， 虽 然 学生 
的 问题 早已 解决 ， 但 是 否 可 以 把 他 们 曾经 在 学 
习 、 研 发 操作 系统 的 过 程 中 遇 到 的 问题 和 心得 体 
EERE REENE ° 


当时 ， 针 对 学 生 的 实际 问题 ， 我 的 解决 方法 
侠 以 一 个 真实 的 操作 系统 为 例 ， 让 学 生理 解 源 代 


码 并 把 操作 系统 在 内 存 中 的 运行 时 状态 画 出 图 
来 。 实 践 证 明 ， 这 个 方法 简单 有 效 。 


现在 我 们 把 这 个 解决 方案 体现 在 这 本 书 中 。 
这 吏 是 以 一 个 真实 的 操作 系统 的 实际 运行 为 主 
线 ; 以 图 形 、 图 像 为 核心 ， 突 出 描述 操作 系统 在 
实际 运行 过 程 中 内 存 的 运行 时 结构 ; 强调 学 生 站 
在 操作 系统 设计 着 的 视角 ， 用 体系 的 思想 方法 ， 
整体 把 握 操 作 系统 的 行为 、 作 用 、 目 的 和 意义 。 


第 1 版 与 第 2 版 的 区 别 
第 2 版 较 第 1 版 有 较 大 的 改动 。 


从 总 体 结构 上 ， 将 第 1 版 的 第 2 章 拆 分 为 第 2 版 
的 第 2 章 、 第 3 章 、 第 4 章 。 这 样 的 拆 分 对 操作 系统 
局 动 部 分 的 系统 初始 化 、 油 活 进 程 0、 创 建 进程 
1、 创 建 进程 2 的 层次 划分 更 清晰 。 各 划 内 容 的 分 
量 也 比较 均衡 ， 阅 读 感受 会 更 好 。 


根据 读者 的 反馈 意见 ， 第 2 版 增加 了 一 些 示意 
图 ， 在 源 代 码 中 增加 了 大 量 的 注释 ， 对 操作 系统 
的 架构 表 壕 得 更 直观 ， 对 源 代 码 讲 解 得 更 细致 。 
这 皖 是 第 2 版 改动 最 大 、 下 功夫 最 多 的 地 方 。 布 望 
我 们 的 努力 能 给 读者 市 来 更 多 的 帮助 。 


本 书 内 容 及 特色 


在 全 书 的 讲解 过 程 中 ， 我 们 不 仅 诗 细 分 析 了 
源 代 码 、 分 析 了 操作 系统 的 执行 序 ， 还 特别 分 析 
SERVERS ab FREES”, HEX 
于 “ 事 ” 与 “ 事 ” 之 则 的 关系 和 来 龙 去 脉 ， 这 
些 “ 事 ”意味 着 什么 ， 为 什么 要 做 这 些 “ 事 ”， 这 
坚 “ 事 ”有 后 的 设计 思想 征 什 么 .…… 都 做 了 非常 详 
细 且 深入 的 分 析 。 


更 重要 的 是 ， 对 于 所 有 重要 的 阶段 ， 我 们 几 
平 都 用 图 解 的 方式 把 操作 系统 在 内 存 中 的 实际 运 
行 状态 精确 地 表示 了 出 来 。 我 们 用 600 dpi 的 分 辨 
率 精 心 绘制 了 300 多 张 图 ， 图 中 表现 的 运行 时 结构 
和 状态 与 操作 系统 实际 运行 的 真实 状态 完全 吻 


合 。 对 每 一 条 线 、 每 一 个 色 块 、 每 一 个 位 置 、 每 
一 个 地 址 及 每 一 个 数字 ， 我 们 都 经 过 了 认真 反复 
地 推演 和 求证 ， 并 最 终 在 计算 机 上 进行 了 核对 和 
验证 。 看 了 这 些 绘制 精美 的 图 后 ， 读 者 的 头脑 中 
MARES ITT REAR O SARE 
代码 ， 而 是 立体 呈现 的 一 件 件 请 晰 的 * 事 ”， 以 及 
这 些 “ 事 ”在 内 存 中 直截了当 、 清 晰 鲜 活 的 画面 。 
用 这 样 的 方法 讲解 操作 系统 是 本 书 的 一 大 特色 。 
理解 这 些 图 要 比 理解 源 代码 和 文字 容易 得 多 。 品 
不 夸张 地 说 ， 只 要 你 能 理解 这 些 图 ， 你 就 理解 了 
操作 系统 的 80%。 这 时 你 可 以 目 运 地 说 ， 你 比 大 
多 数 用 别 的 方法 学 过 操作 系统 的 人 的 水 平 都 要 高 
出 一 大 截 。 


作者 和 机 械 工 业 出 版 社 的 编辑 做 了 大量 的 检 
RIE o WARIRI NAE, FBE 
EKRA RIFT BRE AR 8 EE EE eb 
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本 书 分 三 部 分 来 讲解 Linux 探 作 系 统 : 第 一 音 
T RIE) 分 机 了 从 开机 加 电 到 操作 系统 局 
动 完 成 并 进入 仿 速 状态 的 整个 过 程 ， 第 二 部 分 
(第 5~8 章 ) 讲述 了 操作 系统 进入 系统 仿 速 后 ， 
在 执行 用 户 程 序 的 过 程 中 ， 操 作 系 统 和 用 户 进程 
的 实际 运行 过 程 和 状态 ， 第 三 部 分 〈 第 9 章 ) 阐述 
整个 Linux 操 作 系 统 的 设计 指导 思想 ， 是 从 微观 到 
宏观 的 回归 。 


第 一 部 分 中 ， 我 们 详细 讲解 了 开机 加 电 启 动 
BIOS， 通 过 BIOS 加 载 操 作 系 统 程序 ， 对 主机 的 初 


台 化 ， 打 开 保 护 模式 和 分 页 ， 调 用 main 函 数 ， 创 
建 进 程 0、 进 程 1、 进 程 2? 以 及 shell 进 程 ， 并 且 上 有 具备 
用 文件 的 形式 与 外 设 交 互 。 


第 二 部 分 中 ， 我 们 设计 了 几 个 尽 可 能 简单 又 
有 代表 性 的 应 用 程序 ， 并 以 这 些 程序 的 执行 为 引 
导 ， 详 细 讲 解 了 安 疙 文件 系统 、 文 件 操作 、 用 户 
进程 与 内 存 管理 、 多 个 进程 对 文件 的 操作 以 及 进 
程 间 通信 。 


我 们 将 操作 系统 的 原理 目 然而 然 地 融入 了 讲 
解 真 实 操作 系统 的 实际 运行 过 程 中 。 在 读者 看 
来 ， 换 作 系 统 原 理 不 再 是 空 对 空 的 `“ 文 科 ” 慨 念 
的 计算 机 理论 ， 而 是 既 有 完整 且 体 系 的 理论 ， 文 

` 具体、 实际 的 代码 和 和 案例 ， 理 论 与 实际 


紧密 AN io 
RREA 


Boake BAP Rabo, Fee ut 
了 主 妈 机 制 以 及 实现 主 双 机 制 的 三 项 天 键 技术 : 
保护 和 分 页 、 符 权 级 、 中 断 ， 分 析 了 你 障 主 双 机 
制 实 现 的 决定 性 因素 一 先 机 ， 还 评 细 讲解 了 绥 冲 
区 、 共 至 页 面 、 信 号、 管道 的 设计 指导 思想 。 我 
们 竹 试 从 控 作 系统 设计 痢 的 视角 讲解 操作 系统 的 
设计 指导 思想 。 和 希望 帮助 读者 用 体系 的 思想 理 
解 、 把 握 、 当 级 整个 操作 系统 以 及 表 后 的 设计 四 


想 和 设计 意图 。 


在 本 书 中 ， 我 们 详细 讲解 了 大 家 在 学 习 操作 
系统 的 过 程 中 可 能 会 遇 到 的 每 一 个 难点 ， 如 main 
函数 中 的 pause () 调用 ， 虽 然 已 经 找 不 到 后 续 代 
码 ， 但 该 调用 结束 后 ， 程 序 仍然 执行 的 原因 是 : 
中 断 已 经 打开 ， 进 程 调度 融 开 始 了 ， 而 此 时 可 以 


调度 的 进程 只 有 进程 1， 所 以 后 续 的 代码 应 该 从 进 
程 1 处 继续 执行 .……… 


我 们 还 对 读者 不 容易 理解 和 掌握 的 操作 系统 
等 有 的 撒 层 代码 的 一 至 编 程 技巧 做 了 详细 的 讲 
解 ， 如 用 模拟 call 的 方法 ， 通 过 ret 指 令 “ 调 用 ”main 


忆 之 ， 我 们 所 做 的 一 切 努 力 束 古 想 真正 解决 
读者 遇 到 的 实际 问题 和 难题 ， 给 予 读者 有 效 的 帮 
助 。 我 们 盼望 即使 古 刚 刚 考 入 大 学 的 学 生 也 有 闪 
趣 和 信心 把 这 本 书 读 下 去 ;我 们 同样 希望 即便 是 
对 操作 系统 源 代 码 很 熟悉 的 读 首 ， 这 本 书 也 能 给 
他 们 一 些 不 同 的 视角 、 方 法 和 体系 性 思考 。 


为 什么 本 书 选 用 Linux 0.11 内 核 


这 本 书 选 用 的 是 Linux 0.11 操 作 系统 源 代码 。 
对 为 什么 选用 Linux 0.11 而 不 是 最 新 版 本 ， 赵 炯 先 
生 有 过 非常 精彩 的 论述 。 我 们 认为 赵 移 生 的 论述 
是 非常 到 位 的 。 


我 们 不 妨 看 一 下 Linux 最 新 的 版 本 2.6， 代 码 
量 大 约 在 千 万 行 这 个 量 级 ， 去 掉 其 中 的 驱动 部 
分 ， 代 码 量 仍 在 百 万 行 这 个 量 级 。 一 个 人 一 秒 钟 
看 一 行 ， 一 天 看 8 小 时 ， 中 间 不 号 、 不 喝 、 不 体 
轧 ， 也 要 看 上 几 L 个 月 ， 很 难 想 象 如 何 去 理 解 。 


就 算 我 们 坚持 要 选用 Linux 2.6， 就 算 我 们 写 
上 2000 页 ( 书 足 足 会 有 十 几 厘 米 厚 ) ， 所 有 的 篇 
幅 都 用 来 印 人 代码， 也 只 能 印 上 不 到 十 分 之 一 的 代 


码 。 所 以 ， 即 使 是 这 么 不 切实 际 的 篇 幅 ， 也 不 可 
能 整体 讲解 Linux 2.6。 读 者 会 逐渐 明日 ， 对 于 理 
解 和 掌握 操作 系统 而 言 ， 真 正 有 价值 的 是 整体 、 
是 体系 ， 而 不 是 局 部 。 


Linux 0.11 的 内 核 代码 虽然 只 有 约 两 万 行 ， 但 
却 是 一 个 实 实在 在 、 不 折 不 扣 的 现代 操作 系统 。 
因为 它 具 有 现代 操作 系统 最 重要 的 特征 一 文 持 实 
时 多 任务 ， 所 以 必然 支持 保护 和 分 页 .……... 而 且 它 
还 是 后 续 版 本 的 真正 的 始祖 ， 有 看 内 在 的 、 皮 客 
的 传 入 天 系 。 该 音 更 容易 看 清 设计 章 最 初 的 、 最 


BIN 
根本 的 设计 意图 和 设计 指导 思想 。 
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第 1 章 ”从 开机 加 电 到 执行 main 碎 数 之 
前 的 过 程 


从 开机 人 到 main 芳 数 的 执行 分 三 步 完 成 ， 目 的 

是 实现 从 局 动 盘 加 载 操作 系统 程序 ， 完 成 执行 
main 函 数 所 需要 的 准备 工作 。 第 一 步 ， 局 动 
BIOS， 准 备 实 模 式 下 的 中 断 癌 量 表 和 中 断 服务 程 
F: 第 二 步 ， 从 局 动 盘 加 载 操 作 系统 程序 到 内 
存 ， 加 载 操 作 系 统 程序 的 工作 就 是 利用 第 一 步 中 
准备 的 中 断 服务 程序 实现 的 ， 第 三 步 ， 为 执行 32 
位 的 main 函 数 做 过 小 工作 。 本 半 将 详细 分 析 这 三 
步 在 计算 机 中 是 如 何 完 成 的 ， 以 及 每 一 步 在 内 存 
中 都 做 了 些 什么 。 


小 贴 士 


实 模式 (Real Mode) 是 Intel 80286 和 之 后 的 
80x86 兼 容 CPU 的 操作 模式 〈 应 该 包括 8086) ° X 
模式 的 特性 是 一 个 20 位 的 存储 器 地 址 空间 

(2A20=1 048 576， 即 1 MB 的 存储 器 可 被 寻 
址 ) ， 可 以 直接 软件 访问 BIOS 以 及 周边 硬件 ， 没 
有 硬件 文 持 的 分 页 机 制 和 实时 多 任务 概念 。 从 
80286 开 始 ， 所 有 的 80x86 CPU 的 开机 状态 都 是 实 
模式 ; 8086 等 早期 的 CPU 只 有 一 种 操作 模式 ， 类 
似 于 实 模式 。 


1.1 启动 BIOS， 准 备 实 模式 下 的 中 断 
器 量 表 和 中 断 服 务 程序 


相信 大 家 者 知道 一 合计 算 机 必须 要 安 猴 一 个 
所 请 “操作 系统 ”的 软件 ， 才 能 让 我 们 使 用 计算 


机 ， 人 否则 计算 机 将 息 一 扒 肥 无 生命 力 的 冰 次 的 便 
家 伙 。 在 为 计算 机 安 狠 了 操作 系统 后 ， 当 你 按 下 
计算 机 电源 按钮 的 那 一 刻 ， 计 算 机 机 箱 传 来 了 只 
喻 的 声 首 。 这 时 你 感觉 到 ， 计 算 机 开始 局 动工 作 
了 。 然 而 ， 在 计算 机 的 局 动 过 程 中 ， 操 作 系 统 扩 
层 与 计算 机 硬件 之 间 究 葛 做 了 哪些 复杂 的 交互 动 
作 ? 下 面 我 们 将 根据 控 作 系统 实际 的 局 动 和 运行 
过 程 对 此 进行 逐步 的 天 析 和 讲解 。 


计算 机 的 运行 是 离 不 开 程序 的 。 然 而 ， 加 电 
的 一 瞬间 ， 计 算 机 的 内 存 中 ， 准 确 地 说 是 RAM 
中 ， 至 空 如 也 ， 什 么 程序 也 没有 。 软 盘 里 虽然 有 
操作 系统 程序 ， 但 CPU 的 逻辑 电路 被 设计 为 只 能 
运行 内 存 中 的 程序 ， 没 有 能 力 直 接 从 软盘 运行 操 
作 系 统 由 。 如 果 要 运行 软盘 中 的 操作 系统 ， 必 须 


将 软盘 中 的 操作 系统 程序 加 载 到 内 存 (RAM) 


我 们 假定 本 书 所 用 的 计算 机 是 基于 IA 一 32 系 
列 CPU， 安 装 了 标准 音色 显示 句 、 标 准 键盘 、 一 
个 软驱 、 一 块 硬盘 、16 MB 内 存 ， 在 内 存 中 开辟 
了 2 MB 内 存 作 为 虚拟 盘 ， 并 在 BIOS 中 设置 软 张 
为 局 动 设备 。 后 续 所 有 的 讲解 都 以 此 为 基础 。 


小 由 二 


RAM (Random Access Memory) : 随机 存 取 
存储 絮 ， 第 见 的 内 存 条 束 是 一 类 RAM， 其 特点 是 
MHRA RA Hee 5, Bala IB o 


问题 : 在 RAM 中 什么 程序 也 没有 的 时 候 ， 谁 
来 完成 加 载 软 一 中 操作 系统 的 任务 呢 ? 


Op 


MZ: BIOS 。 


1.1.1 BIOS 的 启动 原理 


在 了 解 BIOS 征 如 何 将 操作 系统 程序 加 载 到 内 
存 中 之 前 ， 我 们 先 来 了 解 一 下 BIOS 程 序 目 映 是 如 
何 局 动 的 。 从 我 们 使 用 计算 机 的 经 验 人 得 知 :， 要 想 
执行 一 个 程序 ， 必 须 在 窗口 中 双击 它 ， 或 者 在 命 
令 行 寞 面 中 输入 相应 的 执行 命 售 。 从 计算 机 压 层 
机 制 上 讲 ， 其 实 是 在 一 个 已 经 运行 起 来 的 操作 系 
统 的 可 视 化 界面 或 命令 行 弄 面 中 执行 一 个 程序 。 
但 是 ， 在 开机 加 电 的 一 瞬间 ， 内 存 中 什么 程序 也 
没有 ， 没 有 任何 程序 在 运行 ， 不 可 能 有 操作 系 


统 ， 更 不 可 能 有 操作 系统 的 用 户 界 面 。 我 们 无 法 
人 为 地 执行 BIOS 程 序 ， 那 么 BIOS 程 序 又 是 由 谁 来 
执行 的 呢 ? 


秘诀 是 : OxFFFFO! 


从 体系 的 角度 看 ， 不 难得 出 这 样 的 结论 : Bt 
然 用 软件 方法 不 可 能 执行 BIOS， 束 只 能 徘 便 件 方 
法 完成 了 。 


从 硬件 角度 看 ，Intel 80x86 系 列 的 CPU 可 以 分 
别 在 16 位 实 模式 和 32 位 保护 模式 下 运行 。 为 了 兼 
容 ， 也 为 了 解决 最 开始 的 局 动 问 题 ，Intel 将 所 有 
80x86 系 列 的 CPU， 包 括 最 新 型 号 的 CPU 的 硬件 都 
设计 为 加 电 即 进入 16 位 实 模式 状态 运行 。 同 时 ， 
还 有 一 点 非常 关键 的 是 ， 将 CPU 硬件 逻辑 设计 为 


加 电 有 鼎 则 强行 将 CS 的 值 置 为 0xF000、IP 的 值 置 为 
0xFFF0， 这 样 CS: IP 束 指 同 0xFFFF0 这 个 地 址 位 
置 ， 如 图 [1-1 所 示 。 从 图 1-1 中 可 以 清楚 地 看 
到 ，0xFFFF0 指 向 了 BIOS 的 地 址 范围 。 


小 贴 士 


IP/EIP (Instruction Pointer) : 指令 指针 寄存 
器 ， 存 在 于 CPU 中 ， 记 录 将 要 执行 的 指令 在 代码 
段 内 的 偏 移 地 址 ， 和 CS 组 合 即 为 将 要 执行 的 指令 
的 内 存 地 址 。 实 模式 为 绝对 地 址 ， 指 令 指针 为 16 
位 ， 即 IP; 保护 模式 下 为 线性 地 址 ， 指 令 指针 为 
32 位 ， 即 EIP ° 


0x00000 


实 模式 内 存 寻 址 空间 


OxFFFFF 


x 
HF CS:0xF000 
电源 开启 IP:0xFFFO 
cP ht Soh PE BR OxFFFFO 
(CPU) 


图 1-1 局 动 时 BIOS 在 内 存 的 状态 及 初始 执行 
位 置 
小 贴 士 
CS (Code Segment Register) : 代码 段 寄 存 
研 ， 存 在 于 CPU 中 ， 指 加 CPU 当前 执行 代码 在 内 


存 中 的 区 域 (定义 了 存放 代码 的 存储 器 的 起 始 地 
HE) 


注意 ， 这 是 一 个 纯 硬 件 完成 的 动作 ! 如 采 此 
时 这 个 位 置 没 有 可 执行 代码 ， 那 么 束 什 么 也 不 用 
况 了 ， 计 算 机 束 此 死机 。 反 之 ， 如 琳 这 个 位 置 有 
可 执行 代码 ， 计 算 机 将 从 这 里 的 代码 开始 ， 沿 看 
后 续 程 序 一 直 执行 下 去 。 


BIOS 程 序 的 入 口 地 址 恰恰 就 是 0xFFFF0! 也 
束 是 说 ，BIOS 程 友 的 第 一 条 指令 就 设计 在 这 个 位 
= o 


[1] Linus 写 Linux0.11 是 在 1991 年 年 底 。 那 时 ， 很 
多 计算 机 是 从 软 副 局 动 的 。 他 为 Linux0.11 设 计 的 
系统 局 动 盘 是 软 僵 。 

[2] 本 书 中 的 大 部 分 图 部 是 依照 计算 机 实际 运行 时 
的 内 存 真实 状态 ， 严 格 按 比 例 以 600 dpi yS 
确 绘 制 的 ， 所 以 有 些 内 存 区 域 因 为 体积 比较 小 ， 


在 图 中 占 的 位 置 也 比较 小 。 请 大 家 阅读 时 仔细 辨 
认 。 


1.1.2 ”BIOS 在 内 存 中 加 载 中 断 问 量 表 和 中 
W ARS FE Ae 


BIOS 程 序 的 代码 量 并 不 大 ， 却 非常 精深 ， 需 
要 对 整个 计算 机 硬件 体系 结构 非常 熟悉 才能 看 得 
明白 。 要 想 把 BIOS 是 如 何 运行 的 讲 清楚 ， 也 得 写 
很 厚 的 一 本 书 ， 这 显然 超出 了 本 书 的 主题 和 范 
围 。 我 们 的 主题 是 操作 系统 ， 所 以 只 把 与 启动 操 
作 系统 有 直接 关系 的 部 分 简单 地 讲解 一 下 。 


BIOS 程 序 补 固化 在 计算 机 主机 板 上 的 一 块 很 
小 的 ROM 心 厂 里 。 通 常 不 同 的 主机 板 所 用 的 BIOS 
也 有 所 不 同 。 怠 局 动 部 分 而 言 ， 各 种 类 型 的 BIOS 
的 基本 原理 大 致 相似 。 为 了 便于 大 家 理解 ， 我 们 
选用 的 BIOS 程 序 只 有 8 KB， 所 占 地 址 段 为 


0xFE000~0xFFFFF， 如 图 1-1 所 示 。 现 在 CS: IP 
已 经 指向 0xFFFF0 这 个 位 置 了 ， 这 意味 着 BIOS 开 
始 局 动 了 。 随 春 BIOS 程 序 的 执行 ， 屏 幕 上 会 显示 
显卡 的 信息 、 内 存 的 信息 .…… 说 明 BIOS 程 序 在 检 
测 显卡 、 内 存 .…… 这 期 间 ， 有 一 项 对 局 动 

(boot) 操作 系统 至 关 重 要 的 工作 ， 那 瓯 是 BIOS 
在 内 存 中 建立 中 断 问 量 表 和 中 上 断 服 务 程序 。 


小 由 证 


ROM (Read Only Memory) : 只 读 存 储 器 。 
现在 通常 用 闪存 芯片 做 ROM 。 虽 然 闪 存 芯片 在 特 
定 的 条 件 下 是 可 写 的， 但 在 谈 到 主机 板 上 存储 
BIOS 的 内 存心 片 时 ， 业 内 人 十 把 它 看 做 ROM e 
ROM 有 一 个 特性 ， 驶 是 断 电 之 后 仍 能 保存 信息 ， 
这 一 点 和 硬盘 类 似 。 


BIOS 程 序 在 内 存 最 开始 的 位 置 (0x00000) 
用 1KB 的 内 存 空间 (0x00000~0x003FF) 构建 中 
汤 问 量 表 ， 在 紧 挨 着 它 的 位 置 用 256 字 节 的 内 存 空 
间 构 建 BIOS 数 据 区 (Ox00400~0x004FF) ， 并 在 
大 约 57 KB 以 后 的 位 置 (0x0E05B) 加 载 了 8 KBZ 
右 的 与 中 断 问 量 表 相 应 的 看 干 中 断 服务 程 序 。 
1-2 中 精确 地 标注 了 这 些 位 置 。 


小 由 证 


一 个 容易 计算 的 方法 0x00100 是 256 字 节 ， 
0x00400 束 是 4x256 字 广 =1024 字 广 ， 也 束 是 1 
KB。 因 为 是 从 0x00000 开 始 计算 ， 所 以 1 KB 的 高 
地 址 端 不 是 0x00400， 而 是 0x00400-1， 也 就 是 
0x003FE ° 


0x00000 OxFFFFF 


L 


| 中 断 向 量 表 BIOs 数 据 区 [mika Bar 
1-2 BIOS 在 内 存 中 加 载 中 断 问 量 表 和 中 断 
服务 程序 


中 断 问 量 表 中 有 256 个 中 断 问 量 ， 每 个 中 断 问 
量 占 4 字 太 ， 其 中 两 个 字 太 是 CS 的 值 ， 两 个 字 届 
征 耻 的 值 。 每 个 中 断 问 量 者 指 癌 一 个 具体 的 中 断 
服务 程序 。 


下 面 将 详细 讲解 后 续 程序 是 如 何 利用 这 些 中 
断 服务 程序 把 系统 内 核 程序 从 软盘 加 载 至 内 存 
的 。 


小 贴 士 


INT (INTerrupt) : “PIT, JG, PR 
打 断 一 件 正在 进行 中 的 事 。 其 最 初 的 意思 是 : 外 
在 的 事件 打 断 正在 执行 的 程序 ， 转 而 执行 处 理 这 
个 事件 的 特定 程序 ， 处 理 结束 后 ， 回 到 被 打 断 的 
程序 继续 执行 。 现 在 ， 可 以 先 将 中 断 理 解 为 一 种 
技术 手段 ， 在 这 一 点 上 与 C 语 言 的 函数 调用 有 些 
类 似 。 


中 断 对 操作 系统 来 说 是 一 个 意义 重大 的 概 
念 ， 后 面 我 们 还 会 深入 讨论 。 


1.2 “加载 操作 系统 内 核 程 序 并 为 你 护 
模式 做 准备 


从 现在 开始 ， 束 要 执行 真正 的 boot 操 作 了 ， 
即 把 软盘 中 的 操作 系统 程序 加 载 至 内 存 。 对 于 
Linux 0.11 损 作 系 统 而 言 ， 计 算 机 将 分 三 批 逐 次 加 
载 操 作 系 统 的 内 核 代 码 。 第 一 批 由 BIOS 中 断 int 
0x19 把 第 一 硬 区 bootsect 的 内 容 加 载 到 内 存 ;， 第 二 
批 、 第 三 批 在 bootsect 的 指挥 下 ， 分 别 把 其 后 的 4 
个 而 区 和 随后 的 240 个 局 区 的 内 容 加 载 至 内 存 。 


1.2.1 ”加 载 第 一 部 分 内 核 代 码 一 一 引导 程 
序 (bootsect) 


按照 我 们 使 用 计算 机 的 经 验 ， 如 果 在 开机 有 的 
时 候 与 上 按 Del 键 ， 屏 和 融 上 会 显示 一 个 BIOS 男 
面 ， 可 以 在 里 面 设置 局 动 设备 。 现 在 我 们 基本 上 
都 是 将 硬盘 设置 为 启动 盘 。Linux 0.11 是 1991 年 设 
计 的 操作 系统 ， 那 时 第 用 的 局 动 设 备 是 软驱 以 及 
其 中 的 软盘 。 站 在 体系 结构 的 角度 看 ， 从 软盘 启 
动 和 从 便 盘 局 动 的 基本 原理 和 机 制 是 类 似 的 。 


经 过 执行 一 系列 BIOS 代 码 之 后 ， 计 算 机 完成 
了 目 检 等 操作 (这 些 和 我 们 讲 的 启动 操作 系统 没 
有 直接 的 关系 ， 读 者 不 必 关 心 ) 。 由 于 我 们 把 软 
盘 设 置 为 局 动 设备 ， 计 算 机 硬件 体系 结构 的 设计 
与 BIOS 联 手 操 作 ， 会 让 CPU 接收 到 一 个 int 0x19 中 
断 。CPU 接 收 到 这 个 中 断后 ， 会 立即 在 中 断 问 量 
表 中 找到 int 0x19 中 断 问 量 。 我 们 在 图 1-3 的 左下 


方 可 以 看 到 int 0x19 中 断 癌 量 在 内 存 中 所 在 的 准确 
位 置 ， 这 个 位 置 几 乎 紧 挨 看 内 存 的 0x00000 位 置 。 


接 下 来 ， 中 上 断 向 量 把 CPU 指向 0x0E6F2， 这 
个 位 置 瓯 是 int 0x19 相 对 应 的 中 断 服 务 程序 的 入 口 
地 址 ， 即 图 1-3 所 示 的 “局 动 加 载 服务 程序 ”的 入 口 
地 址 。 这 个 中 断 服务 程序 的 作用 就 是 把 软盘 第 一 
局 区 中 的 程序 (512 B) 加 载 到 内 存 中 的 指定 位 
置 。 这 个 中 断 服务 程序 的 功能 是 BIOS 事 先 设 计 好 
的 ， 代 码 是 固定 的 ， 与 Linux 操 作 系统 无 关 。 无 论 
Linux 0.11 的 内 核 是 如 何 设计 的 ， 这 段 BIOS 程 序 
所 要 做 的 束 是 “找到 软盘 ?并 “加 载 第 一 局 区 ”， 其 
余 的 它 什 么 都 不 知道 ， 也 不 必 知 道 。 


小 由 于 


中 断 问 量 表 (Interrupt Vector Table) : 实 模 
式 中 断 机 制 的 重要 组 成 部 分 ， 记 录 所 有 中 断 号 对 
应 的 中 断 服务 程 序 的 内 存 地 址 。 


中 断 服 务 (Interrupt Service) 程序 : 通过 中 
断 问 量 表 的 索引 对 中 断 进 行 啊 应 服务 ， 十 一 些 具 
有 特定 功能 的 程序 。 


OxFFFFF 
Pr 


ROM BIOS & VGA 


0x00000 0x003FF 0x00400 0x004FF Ox0EDSB OxOFFFE 


iii 0x0E6F2 
0x19 中 断 | 启动 加 载 服 务 程序 


1-3 ”响应 int 0x19 中 断 


按照 这 个 简单、“ 和 生硬” 的 规则 ，int Ox19 FLT 
回 量 所 指 加 的 中 断 服 务 程序 ， 即 启动 加 载 服务 程 


序 ， 将 软驱 0 号 侯 尖 对 应 盘面 的 0 人 磁道 1 户 区 的 内 容 
复制 至 内 存 0x07C00 人 处。 我 们 可 以 在 图 1-4 的 左边 
看 到 第 一 局 区 加 载 的 具体 位 置 。 


0x00000 OxFFFFF 
mn | ROM BIOS & VGA 
0x07C00 


Oat EY OE 1 Bi OX 
bootsect.s 生 成 的 程序 ) 
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1-4 FURR — ha PRE EIA R 
的 指定 位 置 


这 个 而 区 里 的 内 容 就 是 Linux 0.11 的 引导 程 
序 ， 世 就 古 我 们 将 要 讲解 的 bootsect， 其 作用 就 是 
陆续 把 软 一 中 的 操作 系统 程序 载 入 内 存 。 这 样 制 


作 的 第 一 局 区 就 称 为 启动 局 区 (boot sector) 。 第 
一 而 区 程序 的 载 入 ， 标 志 着 Linux 0.11 中 的 代码 即 
将 发 挥 作 用 了 。 


这 是 非 弟 关键 的 动作 ， 从 此 计算 机 开始 和 软 
盘 上 的 操作 系统 程序 产生 天 联 。 第 一 厨 区 中 的 程 
序 由 bootsect.s 中 的 汇编 程序 汇编 而 成 〈 以 后 简称 
bootsect) 。 这 是 计算 机 上 自 开 机 以 来 ， 内 存 中 第 一 
KA T Linx FRA E CARE, RARER) 
代码 。 


至 此 ， 已 经 把 第 一 批 代码 bootsect 从 软盘 载 入 
计算 机 的 内 存 了 。 下 面 的 工作 吏 是 执行 bootsect 把 
软盘 的 第 二 批 、 第 三 批 代码 载 入 内 存 。 


APE 


注意 : BIOS 程 序 固 化 在 主机 板 上 的 ROM 中 ， 
是 根据 具体 的 主机 板 而 不 是 根据 具体 的 操作 系统 
设计 的 。 


HWE, WEN Ae Ee A RR 
操作 系统 ， 既 可 以 安装 Windows， 也 可 以 安装 
Linux 。 不 难 想 象 每 个 操作 系统 的 设计 者 都 可 以 设 
计 出 一 公 目 己 的 操作 系统 局 动 方案 ， 而 操作 系统 
和 BIOS 通 第 是 由 不 同 的 专业 团队 设计 和 开发 的 ， 
为 了 能 协同 工作 ， 必 须 建立 操作 系统 和 BIOS 之 间 
的 协调 机 制 。 


与 已 有 的 操作 系统 建立 一 一 对 应 的 协调 机 制 
里 然 磋 烦 ， 但 尚 有 有 可能， 难点 在 于 与 末 来 的 操作 
系统 应 该 如 何 建立 协调 机 制 。 现 行 的 方法 是 “两 头 


约定 ”和 “定位 识别 ”。 


对 操作 系统 (这 里 指 Linux 0.11) Wa, “ 约 
定 ” 操 作 系统 的 设计 者 必须 把 最 开始 执行 的 程 
序 “ 定 位 ”在 启动 而 区 (软盘 中 的 0 盘面 0 磁道 1 局 
区 ) ， 其 余 的 程序 可 以 依照 操作 系统 的 设计 顺序 
IMEX TE SALA bs XH e 


对 BIOS 而 言 , “约定 ” 接 到 局 动 操作 系统 的 命 
令 ,“ 定 位 识别 ?只 从 启动 而 区 把 代码 加 载 到 
0x07C00 (BOOTSEG) 这 个 位 置 (参见 Seabios 
0.6.0/Boot.c 文 件 中 的 boot_disk 画 数 ) 。 至 于 这 个 
而 区 中 是 否 是 启动 程序 、 是 什么 操作 系统 ， 则 不 
闻 不 问 、 一 视 同仁 。 如 果 不 是 启动 代码 ， 只 会 提 
示 错 误 ， 其 余 是 用 户 的 责任 ， 与 BIOS 无 关 。 


这 样 构建 协调 机 制 的 好 处 是 站 在 整个 体系 的 
高 度 ， oi aan n 统一 安排 ， 简单 AIN oA 


BIOS 和 操作 系统 的 生产 厂商 开发 的 所 有 系统 版 本 
全 部 遵循 此 机 制 的 约定 ， 就 可 以 各 自 灵活 地 设计 
出 具有 自己 特色 的 系统 版 本 。 


1.2.2 ”加 载 第 二 部 分 内 核 代 码 


setup 


1.bootsect 对 和 内存 的 规划 


BIOS 已 经 把 bootsect 也 就 是 引导 程序 载 入 内 
存 了 ， 现 在 它 的 作用 吏 是 把 第 二 批 和 第 三 批 程序 
陆续 加 载 到 内 存 中 。 为 了 把 第 二 批 和 第 三 批 程序 
加 载 到 内 存 中 的 适当 位 置 ，bootsect 百 先 做 的 工作 
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通常 ， 我 们 是 用 高 级 语言 编写 应 用 程序 的 ， 
这 些 程序 是 在 操作 系统 的 平台 上 运行 的 。 我 们 只 
窟 写 高 级 语言 的 代码 、 数 据 。 人 至 于 这 些 代 人 码 、 数 
据 在 运行 的 时 候 放 在 内 存 的 什么 地 方 ， 十 个 会 相 
互 履 兰 ， 我 们 都 不 用 操心 ， 因 为 操作 系统 和 高 级 
语言 的 编译 万 车 我 们 做 了 大量 的 看 护 工 作 ， 确 你 


\ 会 出 销 。 现 在 我 们 讨论 的 征 ， 损 作 系统 本 号 使 
用 的 是 汇编 语言 ， 没 有 高 级 语言 编译 人 硕 殖 操作 系 
统 近 供 保障 ， 只 有 徘 操作 系统 的 设计 痢 把 内 存 的 
安排 想 清 楚 ， 确 你 无 论 操 作 系 统 如 何 运 行 ， 痢 不 
会 出 现代 码 与 代码 、 数 据 与 数据 、 代 人 码 与 数据 之 
间 相 互 窗 志 的 情况 。 为 了 更 准确 地 理解 操作 系统 
的 运行 机 制 ， 我 们 必须 清 芭 操作 系统 的 设计 着 走 
如 何 规划 内 存 的 。 


在 实 模式 状态 下 ， 寻 址 的 最 大 范围 是 1 MB 。 
为 了 规划 内 存 ，bootsect 首 移 设 计 了 如 下 代码 : 


/代码 路 径 : boot/bootsect.s 
.globl begtext,begdata,begbss,endtext,enddata,endbss 


.teXt 


begtext: 

.data 

begdata: 

.bss 

begbss: 

.text 

SETUPLEN=4! nr of setup-sectors 
BOOTSEG=0x07c0! original address of boot-sector 
INITSEG=0x9000! we move boot here-out of the way 
SETUPSEG=0x9020! setup starts here 
SYSSEG=0x1000! system loaded at 0x10000 (65536) . 
ENDSEG=SYSSEG+SYSSIZE! where to stop loading 
! ROOT_DEV: 0x000-same type of floppy as boot. 

! 0x301-first partition on first drive etc 


ROOT _DEV=0x306 


这 些 源 代码 的 作用 就 是 对 后 续 操作 所 涉及 的 
内 存 位 置 进 行 设置 ， 包 括 将 要 加 载 的 setup 程 序 的 
ba X24" (SETUPLEN) 以 及 被 加 载 到 的 位 置 
(SETUPSEG) ; 局 动 而 区 被 BIOS 加 载 的 位 置 
(BOOTSEG) 及 将 要 移动 到 的 新 位 置 
(INITSEG) ; 内 核 (kernel) 被 加 载 的 位 置 
(SYSSEG) 、 内 核 的 末尾 位 置 (ENDSEG) 及 
根 文件 系统 设备 号 (ROOT_DEV) 。 这 些 位 置 在 
图 1-5 中 都 被 明确 地 标注 了 出 来 。 设 置 这 些 位 置 束 
是 为 了 确保 将 要 载 入 内 存 的 代码 与 已 经 载 入 内 存 
的 代码 及 数据 各 在 其 位 ， 互 不 覆盖 ， 并 且 各 自 有 
够 用 的 内 存 空 间 。 大 家 在 后 续 的 章 记 会 逐渐 看 到 
内 存 规划 的 意义 和 作用 。 


0x00000 SETUPSEG=0x9020 OxFFFFF 
se ee 
ENDSEG#SYSSEG+SYSSIZE 
SYSSEGr0x1000 


BOOTSEG=0x07C0 INITSEG=0x9000 


ROOT_DEV=0x306 


根 文 件 系统 设备 设置 为 
第 二 个 硬盘 第 一 个 分 区 


1-5” 实 模式 下 的 内 存 使 用 规划 


从 现在 起 ， 我 们 的 头脑 中 要 时 刻 牢 记 这 样 一 
个 概念 : 操作 系统 的 设计 者 是 要 全 面 地 、 整 体 地 
考虑 内 存 的 规划 的 。 我 们 会 在 后 续 的 章 广 中 不 断 
地 了 解 到 ， 精 心安 排 内 存 是 操作 系统 设计 者 时 时 
刻 刻 都 要 天 心 的 事 。 我 们 市 看 这 梓 的 观念 继续 了 
解 bootsect 程 序 的 执行 。 


2. 复 制 bootsect 


接 下 来 ，bootsect 局 动 程序 将 它 目 号 (全 部 的 
512 BAZ) 从 内 存 0x07C00 (BOOTSEG) 处 复 
制 至 内 存 0x90000 (INITSEG) 处 。 这 个 动作 和 和 目 
标 位 置 如 图 1-6 所 示 。 


0x00000 INITSEG=0x9000 OxFFFFF 


BOOTSEG=0x07C0 


Kl 1-6 bootsect 复 制 目 刁 


执行 这 个 操作 的 代码 (boot/bootsect.s) 如 
F: 


/代码 路 径 : boot/bootsect.s 


entry start 


Start: 

mov ax, #BOOTSEG 
mov ds,ax 

mov ax, #INITSEG 
mov es,ax 

mov cx, #256 

sub si,si 

sub di,di 


rep 


在 这 次 复制 过 程 中 ，ds (0x07C0) 和 si 
(0x0000) 联合 使 用 ， 构 成 了 源 地 址 0x07C00; es 
(0x9000) 和 di (0x0000) 联合 使 用 ， 构 成 了 目 
的 地 址 0x90000 ( 见 图 1-6) ， 而 mov cx，#256 这 


一 行 循环 控制 量 ， 提 供 了 需要 复制 的 “ 字 ” 数 (一 
SEARED, 256-S FEU ESS TD, eee 
一 扇 区 的 字 节 数 ) 。 


通过 代码 我 们 还 可 以 看 出 ， 图 1-5 提 到 的 
BOOTSEG 和 INITSEG 现 在 开始 发 挥 作用 了 。 注 
意 ， 此 时 CPU 的 段 寄存 右 (CS) 指向 0x07C0 

(BOOTSEG) ， 即 原来 bootsect 程 序 所 在 的 位 
B o 


点 评 
由 于 “两 头 约 定 > 和 “定位 识别 ”， 所 以 在 开始 
时 bootsect“ 被 迫 ? 加 载 到 0x07C00 人 位置。 现在 将 自 


号 移 人 至 0x90000 处 ， 说 明 操 作 系 统 开始 根据 目 己 的 
需要 安排 内 存 了 。 


bootsect 复 制 到 新 位 置 完 毕 后 ， 会 执行 下 面 的 
代码 : 


/代码 路 径 : boot/bootsect.s 


jmpi go,INITSEG 
go: MOV ax,cs 
mov ds,ax 


从 图 1-6 中 我 们 已 经 了 解 到 当时 CS 的 值 为 
0x07C0， 执 行 完 这 个 跳 转 后 ，CS 值 变 为 0x9000 
(INITSEG) ，IP 的 值 为 从 0x9000 (INITSEG) 
到 go: mov ax,cs 这 一 行 对 应 指令 的 仿 移 。 换 人 句 话 


说 ， 此 时 CS: IP 指 向 go: mov ax,cs 这 一 行 ， 程 序 
从 这 一 行 开始 往 下 执行 。 图 1-7 形 象 地 表示 了 跳 转 
到 go: mov ax,cs 这 一 行 执 行 时 CS 和 IP 的 状态 ， 如 
图 右 下 方 所 示 。 


0x00000 INITSEG=0x9000 OxFFFFF 


ROM BIOS & VGA 


ea tt To 
o Be oi {Swag 
ae to SE 


BOOTSEG=0x07C0 


图 1-7 跳 转 到 go 处 继续 执行 


此 前 的 0x07C00 这 个 位 置 是 根据 “两 头 约 
定 ”? 和 “定位 识别 ?而 确定 的 。 从 现在 起 ， 操 作 系 统 
已 经 不 需要 完全 依赖 BIOS， 可 以 按照 自己 的 意志 
把 目 己 的 代码 安排 在 内 存 中 目 己 想 要 的 位 置 。 
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jmpi go, INITSEG 


gO: MOV axX,CS 


这 两 行 代 码 写 得 很 巧 。 复 制 bootsect 完 成 后 ， 
在 内 存 的 0x07C00 和 0x90000 位 置 有 两 段 完 全 相同 
的 代码 。 请 大 家 注意 ， 复 制 代码 这 件 事 本 里 也 古 
要 徘 指 令 执 行 的 ， 执 行 指令 的 过 程 束 是 CS 和 IP 不 
断 变 化 的 过 程 。 执 行 到 jmpi go,INITSEG 这 行 之 
前 ， 代 码 的 作用 就 是 复制 代码 目 喘 ， 执行 了 jmpi 
g0,INITSEG 之 后 ， 程 序 就 转 到 执行 0x90000 这 边 
的 代码 了 。Linus 的 设计 意图 是 想 跳 转 之 后 ， 在 新 
位 置 接 着 执行 后 面 的 mov ax,cs， 而 不 是 死 循环 。 
jmpi go, INITSEG go: mov ax,cs 配 合 ， 巧 妙 地 实 


现 了 “到 新 位 置 后 接着 原来 的 执行 序 继续 执行 下 
去 "的 目的 。 


bootsect 复 制 到 了 新 的 地 方 ， 并 且 要 在 新 的 地 
方 继续 执行 。 因 为 代码 的 整体 位 置 发 生 了 变化 ， 
所 以 代码 中 的 各 个 段 也 会 发 生变 化 。 前 面 已 经 改 
变 了 CS， 现 在 对 DS、ES、SS 和 SP 进行 调整 。 我 
们 看 看 下 面 的 代码 : 


/代码 路 径 : boot/bootsect.s 
gO: MOV ax,cs 

mov ds,ax 

mov es,ax 

! put stack at Ox9ff00. 

mov ss,ax 


mov sp, #0xFF00! arbitrary value > > 512 


! load the setup-sectors directly after the bootblock. 


! Note that'es'is already set up. 


上 述 代 码 的 作用 是 通过 ax， 用 CS 的 值 0x9000 
来 把 数据 段 寄存 器 (DS) 、 附 加 段 寄 存 器 
(ES) 、 栈 基 址 寄存 器 (SS) 设置 成 与 代码 段 寄 
存 器 (CS) 相同 的 位 置 ， 并 将 栈 顶 指针 SP 指 癌 偏 
移 地 址 为 0xFF00 处 。 图 1-8 对 此 做 了 非常 直观 的 描 


yfi o 


SETUPSEG=0x9020 stack ($È, 及 栈 顶 增长 方向 )OXFFFFF 


| ROM BIOS & VGA 
9 
EE O a F00 | 


INITSEG=0x9000 


1-8 VES TEC Far 


下 面 看 重 介绍 一 下 与 栈 操作 相关 的 寄存 器 的 
设置 。SS 和 SP 联合 使 用 ， 束 构成 了 栈 数 据 在 内 存 
中 的 位 置 值 。 对 这 两 个 寄存 如 的 设置 为 后 面 程序 
的 栈 操 作 (如 push、pop 等 ) 打下 了 基础 。 


现在 可 以 观察 一 下 bootsect 中 的 程序 ， 在 执行 
设置 SS 和 SP 的 代码 之 前 ， 没 有 出 现 过 栈 操 作 指 
令 ， 而 在 此 之 后 束 陆 续 使 用 。 这 里 对 SS 和 SP 进行 
的 设置 是 分 水 岭 。 它 标志 看 从 现在 开始 ， 程 序 可 
以 执行 一 些 更 为 复 洒 的 数据 运算 类 指令 了 。 


栈 操作 是 有 方 同 的 。 图 1-8 中 标识 了 压 栈 的 方 
向 ， 注 意 是 由 高 地 址 到 低地 址 的 方向 。 


小 由 二 


DS/ES/FS/GS/SS: 这 些 段 寄存 器 存在 于 CPU 
中 ， 其 中 SS (Stack Segment) RE, HE X tk 
将 按 栈 机 制 进行 管理 。 


SP (Stack Pointer) : 栈 顶 指针 寄存 器 ， 指 向 
栈 段 的 当前 栈 顶 。 


注意 : 很 多 计算 机 书 上 使 用 * 扒 栈 ” 这 个 词 。 
本 书 用 堆 、 栈 表示 两 个 概念 。 栈 表示 stack， 特 指 
在 C 语 言 程序 的 运行 时 结构 中 ， 以 “后 进 先 出 * 机 制 
运作 的 内 存 空 间 ， 堆 表示 heap， 特 指 用 C 语 言 库 函 
效 malloc 创 建 、free 释 放 的 动态 内 存 空间 。 


至 此 ，bootsect 的 第 一 步 操 作 ， 即 规划 内 存 并 
把 目 身 从 0x07C00 的 位 置 复制 到 0x90000 的 位 置 的 
动作 已 经 完成 了 。 


3. 将 setup 程 序 加 载 到 内 存 中 


下 面 ，bootsect 程 序 要 执行 它 的 第 二 步 工 作 : 
将 setup 程 序 加 载 到 内 存 中 。 


加 载 setup 这 个 程序 ， 要 借助 BIOS 提 供 的 int 
0x13 中 断 问 量 所 指向 的 中 断 服务 程序 (也 就 是 位 
BARA PAY) 来 完成 。 图 1-9 标 注 了 int 0x13 中 断 
癌 量 的 位 置 以 及 这 个 中 断 问 量 所 指向 的 磁 副 服务 
程序 的 入 口 位 置 。 


0x00000 OxFFFFF 
|| | 
| 中 断 向 量 表 | BIOS 数 据 区 | 中 断 服务 程序 
0x00000 Ox003FF 


0x13 PB 


1-9 调用 int 0x13 中 晰 


这 个 中 断 服 务 程序 的 执行 过 程 与 图 1-3 和 图 1- 
4 中 讲解 过 的 int 0x19 中 断 问 量 所 指 回 的 局 动 加 载 
服务 程序 不 同 。 


int 0x19 中 断 间 量 所 指 同 的 局 动 加 载 服 务 程序 
是 BIOS 执 行 的 ， 而 int 0x13 的 中 断 服 务 程序 是 
Linux 控 作 系 统 目 身 的 启动 代码 bootsect 执 行 的 。 


int 0x19 的 中 断 服 务 程序 只 负责 把 软盘 的 第 一 
扇 区 的 代码 加 载 到 0x07C00 人 位置， 而 int 0x13 的 中 
断 服 务 程序 则 不 然 ， 它 可 以 根据 设计 者 的 意图 ， 
把 指定 而 区 的 代码 加 载 到 内 存 的 指定 位 置 。 


针对 服务 程序 的 这 个 特性 ， 使 用 int 0x13 中 断 
AY, BUS SCR Ta rE A a + OANA 
言 妃 传递 给 服务 程序 ， 即 传 参 。 执 行 代码 如 下 : 


/代码 路 径 : boot/bootsect.s 

ne ! 注意 : SETUPLEN 为 4 

load _setup: 

mov dx, #0x0000! drive 0, head 0 

mov cx, #0x0002! sector 2, track 0 

mov bx, #0x0200! address=512, in INITSEG 
mov ax, #0x0200+SETUPLEN! service 2, nr of sectors 
int 0x13! read it 

jnc ok_load_setup! ok-continue 

mov dx, #0x0000 

mov ax, #0x0000! reset the diskette 

int 0x13 

j load_setup 


ee 


从 代码 开始 处 的 4 个 mov 指 令 可 以 看 出 ， 系 统 


给 BIOS 中 断 服 务 程 序 传 参 是 通过 几 个 通用 寄存 需 


实现 的 。 这 是 汇编 程序 的 闸 用 方法 ， 与 C 语 言 的 
函数 调用 形式 有 很 大 不同 。 


参数 传递 完毕 后 ， 执 行 int 0x13 指 令 ， 产 生 
0x13 中 断 ， 通 过 中 断 问 量 表 找 到 这 个 中 断 服务 程 
序 ， 将 软盘 第 二 而 区 开始 鸭 4 个 而 区 ， 即 setup.s 对 
应 的 程序 加 载 至 内 存 的 SETUPSEG (0x90200) 
处 。 根 据 对 图 1-5 的 讲解 ， 复 制 后 的 bootsect 的 起 
始 位 置 是 0x90000， 占 用 512 字 广 的 内 存 空间 。 不 
HA HH Ox90200 AFR bootsecth) Evin, Arey 
bootsect 和 setup 是 连 在 一 起 的 。 图 1-10 表 示 了 软盘 
中 所 要 加 载 的 扇 区 位 置 和 扇 区 数 ， 以 及 载 入 内 存 
的 目标 位 置 和 占用 空间 。 


现在 ， 操 作 系 统 已 经 从 软盘 中 加 载 7 了 5 个 司 区 
的 代码 。 等 bootsect 执 行 完 毕 后 ，setup 这 个 程序 整 


要 开始 工作 了 。 


0x00000 SETUPSEG=0x9020 OxFFFFF 


| 
m | 


0x07C00 


0 查 而 0 磁道 2 一 5 E 
(setup.s 生 成 的 程序 ) 


INITSEG=0x9000 


图 1-10 ”加载 setup 程 序 


注意 ， 图 1-8 中 SS: SP 指向 的 位 置 为 
0x9FF00， 这 与 setup 程 序 的 起 始 位 置 0x90200 还 有 
很 大 的 距离 ， 即 便 setup 加 载 进来 后 ， 系 统 仍然 有 
足够 的 内 存 空间 用 来 执行 数据 压 栈 操作 ， 而 且 .， 
在 启动 部 分 ， 要 压 栈 的 数据 毕竟 也 是 有 限 的 。 大 


设计 者 在 此 是 


RR BI 


4K 


1.2.3 ”加 载 第 三 部 分 内 核 代码 
模块 


system 


第 二 批 代码 已 经 载 入 内 存 ， 现 在 要 加 载 第 三 
批 代码 。 仍 然 使 用 BIOS 提 供 的 int 0x13 中 断 ， 如 
图 1-11 所 示 ， 方 法 与 图 1-9 所 示 的 方法 基本 相同 。 


0x00000 OxFFFFF 


ROM BIOS & VGA 


1-11 再 次 调用 int 0x13 Fh 


接 下 来 ，bootsect 程 序 要 执行 第 三 批 程序 的 载 
入 工作 ， 即 将 系统 模块 载 入 内 存 。 


这 次 载 入 从 故 层 技术 上 看 ， 与 前 面 的 setup 程 
序 的 载 入 没有 本 质 的 区 别 。 比 较 突 出 的 特点 是 这 
次 加 载 的 面 区 效 是 240 个 ， 足 足 是 之 前 的 4 个 而 区 
的 60 倍 ， 所 需 时 间 也 是 儿 十 倍 。 为 了 防止 加 载 期 
间 用 户 误 认 为 是 机 璐 故障 而 执行 不 适当 的 操作， 
Linus 在 此 议 计 了 显示 一 行 屏 医 信 息 *Loading 
system......” 以 提示 用 户 计 算 机 此 时 正在 加 载 系 
统 。 值 得 注意 的 是 ， 此 时 操作 系统 的 main 函 数 还 
没有 开始 执行 ， 在 屏 和 右上 显示 一 行 字符 串 远 没有 
用 C 语 言 写 一 句 printf ("Loading system......\n") 
调用 那么 容易 ， 所 有 工作 者 要 徘 一 行 一 行 的 汇编 
代码 来 实现 。 从 体系 结构 的 角度 看 ， 显 示 姻 也 是 
一 个 外 设 ， 所 以 还 要 用 到 其 他 BIOS 中 断 。 这 些 代 
码 比 较 多 ， 对 理解 操作 系统 的 局 动 原理 没有 特别 
直接 的 帮助 ， 只 要 知道 大 意 束 可 以 了 。 我 们 真正 


需要 掌握 的 是 ，bootsect 借 着 BIOS 中 断 int 0x13, 
将 240 个 而 区 的 System 模块 加 载 进 内 存 。 加 载 工作 
主要 是 由 bootsect 调 用 read_it 子 程序 完成 的 。 这 个 
子 程序 将 软 一 第 六 刷 区 开始 的 约 240 个 而 区 的 
system 模 块 加 载 至 内 存 的 SYSSEG (0x10000) 处 
往 后 的 120 KB 空间 中 。 图 1-12 对 system 模 块 所 占 
用 的 内 存 空 间 给 出 了 形象 的 说 明 。 


0x00000 OxFFFFF 
| | 
| | | 
0 查 而 0 磁道 6 筷 区 开始 的 大 约 240 个 肩 区 
SYSSEG=0x1000 {系统 内 核 程 序 ，kernel) 


读 取 软 租 数据 .只 


图 1-12 加载 system 模 块 


FA ae TSN ABR ERAS, PRR EET ER 
备 进行 更 多 的 监控 ， 对 读 盘 结果 不 断 地 进行 检 
测 。 因 此 read_it 后 续 的 调用 步 又 比较 多 一 些 。 但 
读 盘 工作 最 终 是 由 0x13 对 应 的 中 了 靳 服务 程序 完成 
的 。 


到 此 为 止 ， 第 三 批 程序 已 经 加 载 完毕 ， 整 个 
操作 系统 的 代码 已 全 部 加 载 至 内 存 。bootsect 的 主 
体 工作 已 经 做 完了 ， 还 有 一 扩 小 事 ， 束 十 要 再 次 
确定 一 下 根 设 备 号 ， 如 图 1-13 所 示 。 


0x00000 OxFFFFF 


| ROM BIOS & VGA 


Ox1A964 oo 


( /dev/at0 (2,8) ) ( /dev/PSO (2,28) ) 


ROOT_DEV = 0x0208 ROOT_DEV == 0x021C 


2(12 MB) 7(1.44 MB) 


Al 1-13 确认 根 设备 号 
小 贴 士 


根 文件 系统 设备 (Root Device) : Linux 0.11 
使 用 Minix 操 作 系 统 的 文件 系统 管理 方式 ， 要 求 系 
统 必须 存在 一 个 根 文 件 系统 ， 其 他 文件 系统 挂 接 
其 上 ， 而 不 是 同等 地 位 。Linux 0.11 没 有 提供 在 设 


备 上 建立 文件 系统 的 工具 ， 故 必须 在 一 个 正在 运 
行 的 系统 上 利用 工具 (类 似 FDISK 和 Format) 做 
出 一 个 文件 系统 并 加 载 至 本 机 。 因 此 Linux 0.11 的 
启动 需要 两 部 分 数据 ， 即 系统 内 核 镜像 和 根 文 件 


RB ° 


注意 : 这 里 的 文件 系统 指 的 不 是 操作 系统 
核 中 的 文件 系统 代码 ， 而 是 有 配套 的 文件 系统 格 
式 的 设备 ， 如 一 张 格式 化 好 的 软盘 。 


因为 本 书 假设 所 用 的 计算 机 安装 了 一 个 软 甬 
Ikons + “MBE Sar, TEAR PIT RE T2 MB 
的 空间 作为 虚拟 盘 〈 见 第 2 章 的 main 函 数 ) ， 并 在 
BIOS 中 设置 软 僵 张 动 亏 为 局 动 盘 ， 所 以 ， 经 过 一 
AAR, ATT RAL ASE IN RAK ER OS A 
为 根 设备 ， 并 将 信息 写 入 机 器 系 统 数 据 。 第 2 草 中 


main 函 数 一 开 始 束 用 机 天 系统 数据 中 的 这 个 信息 
设置 根 设 备 ， 并 为 “" 根 文件 系统 加 载 ” 更 定 基 础 。 


执行 代码 如 下 : 


/代码 路 径 : boot/bootsect.s 

Seg CS 

mov ax,root_dev 

cmp ax, #0 

jne root_defined 

Seg CS 

mov bx,sectors 

mov ax, #0x0208! /dev/ps0-1.2Mb 
cmp bx, #15 

je root_defined 


mov ax, #0x021c! /dev/PSO-1.44Mb 


cmp bx, #18 
je root_defined 
undef _ root: 


jmp undef_root 


root defined: ! {RIARI ReMi ROL AS pee SMa aa ae 
确认 根 设 备 


Seg CS 
mov root_dev,ax 


ee 


org 508! 注意 : 508 即 为 0x1FC， 当 前 段 是 0x9000， 所 以 地 址 是 
0x901FC 


root _ dev: 
.Word ROOT_DEV 
boot _flag: 


.Word OxAA55 


ee ee 


现在 ，bootsect 程 序 的 任务 都 已 经 完成 


下 面 要 通过 执行 “jmpi 0，SETUPSEG” 这 行 语 
句 跳 转 至 0x90200 处 ， 束 是 前 面 讲 过 的 第 二 批 程序 
setup 程 序 加 载 的 位 置 。CS: IP 指 向 setup 程 序 
的 第 一 条 指令 ， 意 味 着 由 setup 程 序 接着 bootsect 程 
序 继续 执行 。 图 1-14 形 象 地 朱 述 了 跳 转 到 setup 程 
序 后 的 起 始 状 态 ， 对 应 的 代码 如 下 : 


/代码 路 径 : boot/bootsect.s 


0x00000 stack{( 栈 ， 及 栈 顶 增长 方向 )0xFFFFF 
| ====| 


~~ [0x9FF00 


sP|-—{— OxFF00 | 


SETUPSEG=0x9020 
wi 0 


INITSEG=0x9000 


1-14 setup 开始 执行 


setup 程 序 现 在 开始 执行 。 它 做 的 第 一 件 事情 
Wie Al H BIOSHE FE ARS ee Mik ee EGER 
内 核 运行 所 需 的 机 妖 系 统 数 据 ， 其 中 包括 光标 位 
置 、 显 示 页 面 等 数据 ， 并 分 别 从 中 断 问 量 0x41 和 
0x46 癌 量 值 所 指 的 内 存 地 址 处 获取 硬盘 参数 表 1 、 
便 盘 参数 表 2， 把 它们 存放 在 0x9000: 0x0080 和 
0x9000: 0x0090 处 。 


这 些 机 右 系 统 数据 被 加 载 到 内 存 的 0x90000~- 
0x901FC 位 置 。 图 1-15 标 出 了 其 内 容 及 准确 的 位 
置 。 这 些 数 据 将 在 以 后 main 范 数 执行 时 发 挥 重要 
作用 。 


提取 机 如 系统 数据 的 具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 

mov ax, #INITSEG! this is done in bootsect already,but...... 
mov ds,ax 

mov ah, #0x03! read cursor pos 

xor bh,bh 

int 0x10! save it in known place,con_init fetches 
mov[0], dx! it from 0x90000. 

! Get memory size (extended mem,kB) 

mov ah, #0x88 

int 0x15 

mov[2], ax 

mov cx, #0x10 


mov ax, #0x00 


这 段 代码 大 约 70 行 ， 由 于 篇 幅 限制 ， 我 们 省 
略 了 大 部 分 代码 。 


0x00000 stack( 栈 ， 及 栈 顶 增长 方向 )OxFFFFF 


Al 1-15 Mela ABE 


TERS, BIOSHERAIH Lat AQAA ee 
bootsect 程 序 所 在 部 分 区 域 。 这 些 数据 由 于 是 要 留 
用 的 ， 所 以 在 它们 失去 使 用 价值 之 前 ， 一定 不 能 
Ha tn T° 


Hla RIBS AT EAIN E |B] 790x90000~ 
Ox901FD, #£510 77, BUR 2bootsect A277 
未 被 覆盖 。 可 见 ， 操 作 系 统 对 内 存 的 使 用 是 非常 
闫 谨 的 。 在 空间 上 ， 操 作 系 统 对 内 存 严 格 按 需 使 
用 ， 要 加 载 的 数据 刚好 占用 一 个 而 区 的 位 置 (只 
QF) ， 而 局 动情 区 bootsect 又 恰好 是 一 个 届 
区 ， 内 存 的 使 用 规划 像 一 个 账本 ， 前 后 对 应 ; 在 
时 间 上 ， 使 用 完毕 的 空间 立即 挪 作 他 用 ， 启 动情 
区 bootsect 程 序 刚 结束 其 使 命 ， 执 行 setup 时 立刻 吏 
将 其 用 数据 履 盖 ， 内 存 的 使 用 率 极 局 。 虽 然 这 与 
当时 的 人 硬件 条 件 有 限 不 无 关系， 但 这 种 严 译 的 内 
存 规划 风格 是 很 值得 学 习 的 。 


到 此 为 止 ， 操 作 系统 内 核 程序 的 加 载 工作 已 
经 完成 。 接 下 来 的 操作 对 Linux 0.11 而 言 具有 战略 


意义 。 系 统 通过 已 经 加 载 到 内 存 中 的 代码 ， 将 实 
现 从 实 模式 到 保护 模式 的 转变 ， 使 Linux 0.11 真 正 
成 为 “现代 "操作 系统 。 


1.3 ”开始 同 32 位 模 陈 转变 ， 为 main 函 
数 的 调用 做 准备 


接 下 来 ， 操 作 系统 要 便 计 算 机 在 32 位 你 护 模 
式 下 工作 。 这 期 间 要 做 大 量 的 重建 工作 ， 并 且 持 
续 工 作 到 操作 系统 的 main 函 数 的 执行 过 程 中 。 在 
本 攻 中 ， 操 作 系统 执行 的 操作 包括 打开 32 位 的 村 
址 空间 、 打 开 保 护 模式 、 建 立 保护 模式 下 的 中 断 
啊 应 机 制 等 与 保护 模式 配套 的 相关 工作 、 建 立 内 
存 的 分 页 机 制 ， 最 后 做 好 调用 main 函 数 的 准备 。 


1.3.1 天 中 上 断 并 将 System 移动 到 内 存 地 址 
起 始 位 置 0x00000 


如 图 1-16 所 示 ， 这 个 准备 工作 先 要 关闭 中 
汤 ， 即 将 CPU 的 标志 寄存 器 (EFLAGS) 中 的 中 
断 人 允许 标志 (IF) 置 0。 这 意味 着 ， 程 序 在 接 下 来 
的 执行 过 程 中 ， 无 论 是 否 发 生 中 断 ， 系 统 都 不 再 
对 此 中 断 进 行 响 应 ， 直 到 下 一 章 要 讲解 的 main 画 
数 中 能 够 适应 保护 模式 的 中 断 服 务 体 系 被 重建 完 
毕 才 会 打开 中 断 ， 而 那 时 候 响 应 中 断 的 服务 程序 
将 不 再 是 BIOS 提 供 的 中 断 服 务 程序 ， 取 而 代 之 的 
是 由 系统 自身 提供 的 中 断 服务 程序 。 代 码 如 下 : 


/代码 路 径 : boot/setup.s 


ee ee 


EFLAGS || 
(标志 寄存 器 ) 0 


图 1-16 关中 晰 
小 贴 士 


EFLAGS: 标志 寄存 占 ， 和 存在 于 CPU 中 ，32 
位 ， 包 含 一 组 状态 标志 、 控 制 标志 及 系统 标志 。 
如 第 0 位 的 CF (Carry Flag) 为 CPU 计 算 用 到 的 进 
位 标志 ， 太 图 1-16 所 示 的 天 中断 操作 涉及 的 第 9 位 
IF (Interrupt Flag) 中 断 允 许 标 志 。 


关中 断 (cli) MAPE (sti) 操作 将 在 操作 
系统 代码 中 频繁 出 现 ， 其 意义 深刻 。 慢 慢 的 你 会 


ACE, cli > sti TEP St RR EY A h 
现 ， 目 的 是 避免 中 断 在 此 期 间 的 介入 。 搂 下 来 的 
代码 将 为 控 作 系统 进入 保 扩 模式 做 准备 。 此 处 即 
KR TT SEBEL BAT TR) Be ARB BA 
述 符 表 UDT) 的 交接 工作 。 试 想 ， 如 果 没 有 
cli， 叉 恰好 发 生 中 断 ， 如 用 户 不 小 心 碰 了 一 下 键 
fh, PITRE OR, BLAME NTE SERV P 
WELEI ZR BR ` PREP RUA PTA Lil fe AR SE BY 
的 埃 俯 局 面 ， 结 末 束 是 系统 朋 浇 。di、sti 你 证 了 
这 个 过 程 中 ，IDT 能 够 完整 创建 ， 以 避免 不 可 预 
料 中 断 的 进入 造成 IDT 创 建 不 完整 或 靳 老 中 断 机 
制 袍 用 。 长 至 可 以 理解 为 ci 、sti 生 为 了 你 护 一 个 
新 的 计算 机 生命 的 完整 而 创建 的 。 


下 面 ，setup 程 序 做 了 一 个 影响 深远 的 动作 : 
将 位 于 0x10000 的 内 核 程 序 复制 至 内 存 地 址 起 始 位 
置 0x00000 人 处! 代码 如 下 : 


/代码 路 径 : boot/setup.s 


ee 


mov es,ax! destination segment 
add ax, #0x1000 

cmp ax, #0x9000 

jz end_move 

mov ds,ax! source segment 

sub di,di 

sub si,si 

mov cx, #0x8000 


rep 


movsw 
jmp do_move 


图 1-17 准 确 标 识 了 复制 操作 系统 内 核 代码 的 
源 位 置 和 目标 位 置 及 复制 动作 的 方 癌 。 


0x00000 OxFFFFF 
| ETA 
'SYSSEG=0x1000 
0x00000 | J OxFFFFF 


一 复制 


| 禁止 
ROM BIOS & VGA Ge 


ES DS 
*DS 和 ES 配合 完成 内 核 移 位 的 复制 动作 


1-17 复制 system 模 块 至 内 存 起 始 处 


回顾 一 下 图 1-2 的 内 容 ，0x00000 这 个 位 置 原 
来 存放 着 由 BIOS 建 立 的 中 断 问 量 表 及 BIOS 数 据 
区 。 这 个 复制 动作 将 BIOS 中 断 向 量 表 和 BIOS 数 据 
区 完全 徐 盖 ， 使 它们 不 复 存 在 。 直 到 新 的 中 断 服 


务 体系 构建 完毕 之 前 ， 操 作 系 统 不 再 具备 啊 应 并 
处 理 中 断 的 能 力 。 现 在 ， 我 们 开始 体会 到 图 1-16 
中 的 天 中 断 操作 的 意义 。 


这 样 做 能 取得 “一 前 三 雕 ”的 鸡 采 : 


1) 上 废除 BIOS 的 中 断 问 量 表 ， 等 同 于 废除 了 
BIOS 提 供 的 实 模 式 下 的 中 断 服务 程序 。 

2) 收回 刚刚 结束 使 用 寿命 的 程序 所 占 内 存 空 
间 。 


3) 让 内 核 代 码 占据 内 存 物 理 地 址 最 开始 的 、 
KRAI ` A AIME ° 


“破旧 立新 ”这 个 成 语 用 在 这 里 特别 贴切 。 
system 模 块 复制 到 0x00000 这 个 动作 ， 废 除了 BIOS 
的 中 断 问 量 表 ， 也 吏 是 废除 了 16 位 的 中 断 机 制 。 
操作 系统 是 不 能 没有 中 断 的 ， 对 外 设 的 使 用 、 系 
统 调 用 、 圭 程 调度 部 离 不 开 中 断 。Linux 操 作 系 统 
是 32 位 的 现代 操作 系统 ，16 位 的 中 断 机 制 对 32 位 
的 操作 系统 而 言 ， 显 然 古 不 合适 的 ， 这 也 是 废除 
16 位 中 断 机 制 的 根本 原因 。 为 了 建立 32 位 的 操作 
系统 ， 我 们 不 但 要 “破旧 ”， 还 要 “立新 一 建立 
新 的 中 断 机 制 。 


1.3.2 ”设置 中 断 摘 述 符 表 和 全 局 摘 述 符 表 


setup 程 序 继续 为 保护 模式 做 准备 。 此 时 要 通 
过 setup 程 序 目 映 提供 的 数据 信息 对 中 断 插 述 符 表 
ay fax UDTR) 和 全 局 描述 符 表 寄存 名 


(GDTR) 进行 初始 化 设置 。 
小 贴 士 


GDT (Global Descriptor Table， 全 局 描述 符 
K) ， 在 系统 中 唯一 的 存放 上 段 寄 存 侣 内 容 〈 段 描 
述 符 ) 的 数组 ， 配 合 程序 进行 保护 模式 下 的 段 寻 
址 。 它 在 操作 系统 的 进程 切换 中 具有 重要 意义 ， 
可 理解 为 所 有 进程 的 总 目录 表 ， 其 中 存放 每 一 个 
任务 (task) 局 部 描述 符 表 (LDT,Local Descriptor 
Table) 地 址 和 任务 状态 段 (TSS,Task Structure 


Segment) 地 址 ， 完 成 进程 中 各 段 的 寻 址 、 现 场 保 
护 与 现场 恢复 。 


GDTR (Global Descriptor Table Register,GDT 
基地 址 寄存 器 ) ，GDT 可 以 存放 在 内 存 的 任何 位 
置 。 当 程序 通过 段 寄 存 侣 引用 一 个 段 插 述 符 时 ， 
需要 取得 GDT 的 入 口 ，GDTR 标 识 的 即 为 此 入 
口 。 在 操作 系统 对 GDT 的 初始 化 完成 后 ， 可 以 用 
LGDT (Load GDT) 指令 将 GDT 基 地 址 加 载 至 


GDTR ° 


IDT (Interrupt Descriptor Table， 中 断 摘 述 符 
表 ) ， 保 存 保护 模式 下 所 有 中 断 服 务 程序 的 入 口 
地 址 ， 类 似 于 实 模 式 下 的 中 断 问 量 表 。 


IDTR (Interrupt Descriptor Table Register,IDT 
基地 址 寄存 器 ) ， 保 存 IDT 的 起 始 地 址 。 


内 核实 现代 码 如 下 : 


// 代 码 路 径 : boot/setup.s 

end move: 

mov ax, #SETUPSEG! right,forgot this at first.didn't work: D 
mov ds,ax 

lidt idt_48! load idt with 0, 0 

lgdt gdt_48! load gdt with whatever appropriate 

gdt: 

.word 0, 0, 0, 0! dummy 

word Ox07FF! 8Mb-limit=2047 (2048*4096=8Mb) 


.Word 0x0000! base address=0 


.word 0x9A00! code read/exec 
.Word 0x00C0! granularity=4096, 386 

.word 0x07FF! 8Mb-limit=2047 (2048*4096=8Mb) 
.Word 0x0000! base address=0 

.word 0x9200! data read/write 

.Word 0x00C0! granularity=4096, 386 

idt _48: 

.word 0! idt limit=0 

.word0, 0! idt base=0L 

gdt 48: 

.word 0x800! gdt limit=2048, 256 GDT entries 


.Word 512+gdt, 0x9! gdt base=OX9xxxx 


这 些 代码 设置 所 需要 的 数据 分 别 在 idt_48 和 
gdt_48 所 对 应 的 标号 处 ， 它 们 和 寄存 妖 的 对 应 方 


式 如 图 1-18 所 示 。 


0x00000 SETUPSEG=0x9020 OxFFFFF 


KI 
INITSEG=0x9000 | 
47 15 0 
0 0 IDTR 


基地 址 。 限 长 (中断 描述 
符 表 寄存 器 ) 


47 ox90200+ 15 GpTR 


| 0x9 ooo 0x800 | (全 局 描述 
地 址 


限 长 ” 符 表 寄存 器 ) 


1-18 设置 GDTR 和 IDTR 


32 位 的 中 断 机 制 和 16 位 的 中 断 机 制 ， 在 原理 
上 有 比较 大 的 差别 。 最 明显 的 是 16 位 的 中 断 机 制 
用 的 是 中 断 问 量 表 ， 中 断 癌 量 示 的 起 始 位 置 在 
0x00000 处 ， 这 个 位 置 是 固定 的 ;， 32 位 的 中 断 机 制 
用 的 是 中 断 描 述 符 表 DT) ， 位 置 是 不 固定 


的 ， 可 以 由 操作 系统 的 设计 者 根据 设计 要 求 灵 活 
安排 ， 由 IDTR 来 锁定 其 位 置 。 


GDT 是 保护 模式 下 管理 段 描 述 符 的 数据 结 
构 ， 对 操作 系统 目 生 的 运行 以 及 管理 、 调 度 进 程 
有 重大 意义 ， 后 面 的 章节 会 有 详细 讲解 。 


因为 ， 此 时 此 刻 内 核 疝 未 真正 运行 起 来 ， 还 
没有 进程 ， 所 以 现在 创建 鸭 GDT 第 一 项 为 空 ， 第 
二 项 为 内 核 代 码 段 撒 述 符 ， 第 三 项 为 内 核 数 据 段 
HRF, EHRMANN ° 

DTRRCARE, SAKA, RAE 


目前 已 关中 断 ， 无 需 调用 中 断 服务 程 序 。 此 处 反 
瞻 的 是 数据 “ 够 用 即 得 ”的 思想 。 


创建 这 两 个 表 的 过 程 可 理解 为 是 分 两 步 进行 
的 ; 


1) 在 设计 内 核 代 码 时 ， 已 经 将 两 个 表 写 好 ， 
并 且 把 需要 的 数据 也 写 好 。 


2) 将 专用 寄存 器 (IDTR、GDTR) 指 问 表 。 


此 处 的 数据 区 域 古 在 内 核 源 代 码 中 设 是 、 编 
译 并 直接 加 载 至 内 存 形成 的 一 块 数据 区 域 。 专 用 
寄存 如 的 指 疝 由 程序 中 的 lidt 和 lgdt 指 令 完成 ， 具 
体 控 作 见 图 1-18。 


值得 一 近 的 是 ， 在 内 存 中 做 出 数据 的 方法 有 
两 种 : 


1) 划分 一 块 内 存 区 域 并 初始 化 数据 , “看 
住 ”这 块 内 存 区 域 ， 使 之 能 个 找 到 |， 


2) 由 代码 做 出 数据 ， 如 用 push 代 码 压 
Be, “做 出 ”数据 。 


此 处 及 用 的 是 第 一 种 方法 。 


1.3.3 FJFFA20, m32 F1 


下 面 是 标志 性 的 动作 一 一 打开 A20! 


打开 A20， 意 味 着 CPU 可 以 进行 32 位 寻 址 ， 
最 大 寻 址 空间 为 4 GB。 注 意图 1-19 中 内 存 条 苑 转 
的 变化 : 从 5 个 F 扩 展 到 8 个 E， 即 0xFFFFFFFF 


— 4GB。 


打开 A20 地 址 线 后 内 存 寻 址 空间 的 变化 


OxFFFFFFFF 


OxFFFFFF 


图 1-19 打开 A20 


现在 看 来 ，Linux 0.11 还 显得 有 些 稚嫩 ， 最 大 
只 能 支持 16 MB 的 物理 内 存 ， 但 是 其 线性 寻 址 空 
闻 已 经 是 不 折 不 扣 的 4GB。 


打开 A20 的 代码 (boot/setup.s) 如 下 : 


/代码 路 径 : bootsetup.s 


! that was painless,now we enable A20 
call empty_8042 

mov al, #0xD1! command write 
out#0x64, al 

call empty_8042 

moval, #0xDF! A20 on 

out#0x60, al 


call empty_8042 


实 模式 下 CPU 寻 址 范围 为 0~0xFFFFF， 共 1 
MB 寻 址 空间 ， 需 要 0 一 19 号 共 20 根 地 址 线 。 
保护 模式 后 ， 将 使 用 32 位 寻 址 模式 ， 即 采用 32 根 


地 址 线 进行 寻 址 ， 第 21 根 (A20) 至 第 32 根 地 址 
线 的 选 通 控制 将 意味 着 寻 址 模式 的 切换 。 


实 模 式 下 ， 当 程序 寻 址 超过 0xFFFFF 时 ， 
CPU 将 “ 回 深 ” 至 内 存 地 址 起 始 处 寻 址 (注意 ,在 
只 有 20 根 地 址 线 的 条 件 下 ， 
0xFFFFF+1=0x00000， 最 高 位 溢出 ) 。 例 如 ， 系 
统 的 段 寄存 器 (如 CS) 的 最 大 允许 地 址 为 
0xFFFF， 指 令 指 针 (IP) 的 最 大 允许 段 内 偏 移 也 
为 0xXFFFF， 两 者 确定 的 最 大 绝对 地 址 为 
0x10FFEF， 这 将 意味 着 程序 中 可 产生 的 实 模式 下 
的 寻 址 范围 比 1 MB 多 出 将 近 64 KB (一 些 特殊 导 
址 要 求 的 程序 就 利用 了 这 个 特点 ) 。 这 样 ， 此 处 
对 A20 地 址 线 的 启用 相当 于 关闭 CPU 在 实 模 式 下 


寻 址 的 “ 回 次 ”机 制 。 在 后 续 代 码 中 也 将 看 到 利用 
此 特点 来 验证 A20 地 址 线 是 否 确实 已 经 打开 。 


1.3.4 ”为 傈 护 模 式 下 执行 head.s 做 准备 
为 了 建立 保护 模式 下 的 中 断 机 制 ，setup 程 序 
将 对 可 编程 中 断 控 制 句 8259A 进 行 重 新 编程 。 
小 贴 士 
8259A: 专门 为 了 对 8085A 和 8086/8088 进 行 
中 断 控制 而 设计 的 已 厂 ， 是 可 以 用 程序 控制 的 中 
靳 控制 器 。 单 个 的 8259A 能 管理 8 级 向 量 优先 级 中 


断 ， 在 不 增加 其 他 电路 的 情况 下 ， 最 多 可 以 级 联 
成 64 级 的 同 量 优先 级 中 断 系 统 。 


具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 


mov al, #0x11! initialization sequence 
out#0x20, al! send it to 8259A-1 

.Word 0x00eb, Ox00eb! jmp$+2, jmp$+2 
out#0xA0, al! and to 8259A-2 

.Word O0x00eb, Ox00eb 

mov al, #0x20! start of hardware int's (0x20) 
out#0x21, al 

.Word 0x00eb, Ox00eb 

mov al, #0x28! start of hardware int's 2 (0x28) 
out#0xA1, al 

.Word Ox00eb, Ox00eb 

mov al, #0x04! 8259-1 is master 

out#0x21, al 

.Word 0x00eb, Ox00eb 

moval, #0x02! 8259-2 is slave 

out#0xA1, al 


.Word 0x00eb, 0x00eb 


mov al, #0x01! 8086 mode for both 

out#0x21, al 

.Word 0x00eb, Ox00eb 

out#0xA1, al 

.Word 0x00eb, Ox00eb 

mov al, #0xFF! mask off all interrupts for now 
out#0x21, al 

.Word Ox00eb, Ox00eb 


out#0xA1, al 


重新 编程 的 结 采 在 图 1-20 中 有 直观 的 表述 。 


CPU 在 保护 模式 下 ，int Ox00~int 0x1F 被 Intel 
保留 作为 内 部 〈 不 可 屏蔽 ) 中 断 和 异常 中 断 。 如 
末 不 对 8259A 进 行 重新 编程 ，int 0x00~int 0x1F 中 
断 将 被 覆盖 。 例 如 ，IRQ0 (时 钟 中 断 ) 为 8 号 


(int 0x08) 中 断 ， 但 在 保护 模式 下 此 中 断 号 是 
Intel 保 留 的 *Double Fault” (双重 故障 ) 。 因 此 ， 
必须 通过 8259A 编 程 将 原来 的 IRQOx00~IRQOxXOF 
对 应 的 中 断 号 重新 分 布 ， 即 在 保护 模式 下 ， 
IRQOx00~IRQOXOFHY Fit 5 zint 0x20~int 
Ox2F ° 


CPU 在 保护 模式 下 ，int 


号 必须 ese 

00 

8259A OxIF 

IRQO 0x20 

IRQ1 0x21 

IRQ14 Ox0E IRQ14 0x2E 

Erra IRQ15 OxOF IRQ15 Ox2F 

中 断 请 求 号 中 断 号 中 断 请 求 号 Pers 
重新 编程 前 重新 编程 后 


图 1-20 对 可 编程 中 断 控 制 占 重新 编 和 


setup 程 序 通 过 下 面 代码 的 前 两 行将 CPU 工作 
方式 设 为 保护 模式 。 将 CR0 寄 存 器 第 0 位 (PE) 置 
1， 即 设 定 处 理 器 工作 方式 为 保护 模式 。 


小 由 二 


CRO@ Fas: 0 号 32 位 控制 寄存 天 ， 存 放 系 统 
控制 标志 。 第 0 位 为 PE (Protected Mode Enable, 
保护 模式 使 能 ) 标志 ， 置 1 时 CPU 工 作 在 保护 模式 
下 ， 置 0 时 为 实 模式 。 


具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 
mov ax, #0x0001! protected mode (PE) bit 


Imsw ax! This is it! 


jmpi 0, 8! jmp offset 0 of segment 8 (cs) 


ee 


图 1-21 对 此 做 出 了 直观 的 标示 。 


CPU 工 作 方 式 转变 为 保 扩 模式， 一 个 重要 的 
特征 束 是 要 根据 GDT 决 定 后 儒 执 行 哪里 的 程序 。 


注意 看 图 1-18 中 对 GDT 的 设置 ， 这 些 设置 都 
是 setup 事 先 安 排 好 了 的 默认 设置 。 从 setup 程 友 跳 
转 人 head 程 序 的 方式 如 图 1-22 所 示 。 


3] 


ma 0 
FY |New 


PE=] 
处 理 器 进入 保护 模式 


图 1-21 打开 保护 模式 


0x00000 OxFFFFFF 


0x9000:0 OxFFFFF | 


| caste i setup 程 序 
| 0x00000000 0x9020:0 0x9020:7FF 
! (内 核 中 的 head 程 序 起 始 地 址 ) 


Cs sn 0 ss i i se em 


从 setup 程 序 跳 转 至 he ad 程序 起 始 地 址 开始 执行 


1-22 ”程序 段 间 跳 转 


具体 代码 如 下 : 


/代码 路 径 : boot/setup.s 


这 一 行 代 码 中 的 “0? 坪 段 内 俩 移 ,，“8" 是 保护 
模式 下 的 段 选 择 人 符 ， 用 于 选择 摘 述 符 表 和 搞 述 符 
表 项 以 及 所 要 求 的 特权 级 。 这 里 “8” 的 解读 方式 很 


有 意思 。 如 果 把 “8” 当 做 6、7、8...... 中 的 “8” 这 个 
数 来 看 待 ， 这 行程 序 的 意思 就 很 难 理解 了 。 必 须 
把 “8” 看 成 二 进 制 的 1000， 再 把 前 后 相关 的 代码 联 
合 起 来 当做 一 个 整体 看 ， 在 头脑 中 形成 类 似 图 1- 
23 所 示 的 图 ， 才 能 真正 明日 这 行 代码 究竟 在 说 什 

。 注意: 这 是 一 个 以 位 为 操作 单位 的 数据 使 用 
方式 ，4 bit 的 每 一 位 都 有 明确 的 意义 ， 这 是 压 层 
源 代码 的 一 个 特点 。 


保护 模式 开启 前 
0x00000 OxFFFFF 


Al 1-23 保 扩 村 式 开局 前 后 的 指令 寻 址 方式 对 
比 示 意 


段 基 址 : 特权 级 : 


0x00000000 内 核 级 代码 自 


00000000 00000000 00000000j0000 


Į J 
段 限 长 ; mesure a >8 MB 


gdt 第 1 项 数据 结构 示意 
图 1-23 (42) 


这 里 1000 的 最 后 两 位 (00) 表示 内 核 特 权 
级 ， 与 之 相对 的 用 户 特权 级 是 11; 第 三 位 的 0 表示 
GDT， 如 果 是 1， 则 表示 LDT; 1000 的 1 表示 所 选 
的 表 〈 在 此 就 是 GDT) 的 1 项 (GDT 项 号 排序 为 0 
项 、1 项 、2 项 ， 这 里 也 就 是 第 2 项 ) 来 确定 代码 段 
的 段 基 址 和 段 限 长 等 信息 。 从 图 1-23 中 我 们 可 以 
看 到 ， 代 码 是 从 段 基 址 0x00000000、 偏 移 为 0 处 ， 


也 就 是 head 程 序 的 开始 位 置 开始 执行 的 ， 这 意味 
着 执行 head 程 序 。 


1.3.5 head.s 开 始 执行 


在 讲解 head 程 序 之 前 ， 我 们 先 介 绍 一 下 从 
bootsect 天 main 范 数 执行 的 整体 拉 术 案 略 。 


在 执行 main 芳 数 之 前 ， 先 要 执行 三 个 由 汇编 
代码 生成 的 程序 ， 即 bootsect、setup 和 head。 之 
后 ， 才 执行 由 main 芳 数 开 始 的 用 C 语 言 编写 的 操作 
系统 内 核 程序 。 


前 面 我 们 讲 过 ， 第 一 步 ， 加 载 bootsect 到 | 
0x07C00， 然 后 复制 到 0x90000; 第 二 步 ， 加 载 
setup 到 0x90200。 值 得 注意 的 是 ， 这 两 段 程序 是 分 
别 加 载 、 分 别 执行 的 。 


head 程 序 与 它们 的 加 载 方式 有 所 不 同 。 大 和 致 
的 过 程 是 ， 先 将 head.s 汇 编 成 目标 代码 ， 将 用 C 语 
言 编 写 的 内 核 程 序 编译 成 目标 代码 ， 然 后 链接 成 
system 模 块 。 也 吏 古 说 ，system 模 块 里 面 既 有 内 核 
程序 ， 义 有 head 程 序 。 两 者 是 紧 摊 着 的 。 要 所 
是 ，head 程 序 在 前 ， 内 核 程序 在 后 ， 所 以 head 程 序 
名 字 为 "head”。head 程 序 在 内 存 中 占有 25 KB+184 
B 的 空间 。 前 面 讲解 过 ，system 模 块 加载 到 内 存 
后 ，setup 将 System 模块 复制 到 0x00000 位 置 ， 由 于 
head 程 序 在 system 的 前 面 ， 所 以 实际 上 ，head 程 序 
就 在 0x00000 这 个 位 置 。head 程 序 、 以 main 函 数 开 
始 的 内 核 程 序 在 system 模 块 中 的 布局 示意 图 如 图 1- 


24 所 示 。 


R| 1-24 system 在 内 存 中 的 分 布 示 意 医 


head 程 序 除 了 做 一 些 调用 main 的 准备 工作 之 
外 ， 还 做 了 一 件 对 内 核 程 序 在 内 存 中 的 布局 及 内 
核 程 序 的 正常 运行 有 重大 意义 的 事 ， 就 是 用 程序 
目 身 的 代码 在 程序 上 自 喘 所 在 的 内 存 空间 创建 了 内 
核 分 页 机 制 ， 即 在 0x000000 的 位 置 创建 了 页 目录 
表 、 页 表 、 缓 冲 区 、GDT、IDT， 并 将 head 程 序 已 

经 执行 过 的 代码 所 占 内 存 空间 覆 兽 。 这 意味 着 

head 程 序 目 己 将 目 己 废 齐 ，main 函 数 即 将 开始 执 


J — 


Pi 


以 上 就 是 head 程 序 执行 过 程 的 整体 策略 。 我 
们 参照 这 个 策略 ， 看 看 head 究 竟 是 怎么 执行 的 。 

在 讲解 head 程 序 执行 之 前 ， 我 们 先 来 关注 一 
个 标号 : _pg_dir， 如 下 面 的 代码 (boot/head.s) 所 


/代码 路 径 : boot/head.s 


.text 


globl_idt, _gdt, _pg dir, 


_pg_dir: 

startup _32: 

movl $0x10, %eax 
mov %ax, %ds 
mov %ax, %es 
mov %ax, %fs 
mov %ax, %gs 


_tmp_floppy_area 


标号 _pg_dir 标 识 内 核 分 页 机 制 完 成 后 的 内 核 
起 始 位 置 ， 也 就 是 物理 内 存 的 起 始 位 置 
0x000000。head 程 序 马 上 或 要 在 此 处 建立 页 目录 
表 ， 为 分 页 机 制 做 准备 。 这 一 点 非常 重要 ， 是 内 
核能 够 掌控 用 户 进 程 的 基础 之 一 ， 后 续 章 市 将 未 
步 讲 解 。 图 1-25 中 揪 述 了 页 目录 表 在 内 存 中 所 占 
的 位 置 。 


0x00000 OxFFFFFF 
| SETUPSEG = 0x9020 OxFFFFF cr 


0x0000~0x4FFF, 20KB 
此 位 置 将 作为 页 目录 起 


1-25 ”建立 内 核 分 页 机 制 


现在 head 程 序 正式 开始 执行 ， 一 切 都 是 为 适 
应 保护 模式 做 准备 。 在 图 1-25 中 ， 其 本 质 就 古 让 
CS 的 用 法 从 实 模 式 转变 到 保护 模式 。 在 实 模 式 


下 ，CS 本 身 就 是 代码 段 基 址 。 在 保护 模式 下 ，CS 
本 刁 不 是 代码 段 基 址 ， 而 是 代码 段 选 择 符 。 通 过 
对 图 1-25 的 分 析 得 知 ，jmpi 0，8 这 人 句 代码 使 CS 和 
GDT 的 第 2 项 关联 ， 并 且 使 代码 段 基 址 指 癌 
0x000000 ° 


从 现在 开始 ， 要 将 DS、ES、FS 和 GS 等 其 他 
寄存 希 从 实 模式 转变 到 保护 模式 。 执 行 代 人 码 如 
下 : 


// 代 码 路 径 : boot/head.s 
startup _ 32: 

movl $0x10, %eax 
mov %ax, %ds 

mov %ax, %es 


mov %ax, %fs 


mov %ax, %gs 


执行 完毕 后 ，DS、ES、FS 和 GS 中 的 值 都 成 
为 0x10。 与 前 面 提 到 的 jmpi 0，8 中 的 8 的 分 析 方法 
相同 ，0x10 也 应 看 成 二 进 制 的 00010000， 最 后 二 
位 与 前 面 讲解 的 一 样 ， 其 中 最 后 两 位 (00) 表示 
内 核 特 权 级 ， 从 后 数 第 3 位 (0) 表示 选择 GDT， 
第 4、5 两 位 (10) 是 GDT 的 2 项 ， 也 就 是 第 3 项 。 
也 束 是 说 ，4 个 寄存 右 用 的 是 同一 个 全 局 描述 符 ， 
它们 的 段 基 址 、 段 限 长 、 符 权 级 都 是 相同 的 。 特 
别 要 注意 的 是 ， 影 响 段 限 长 的 大 键 字段 的 值 是 
0x7FF, IRK W8 MB 。 


图 1-26 给 出 了 详细 示意 。 


0x00000 OxFFFFFFFF 


数据 段 限 长 :8 MB 


x4KB - 


gdt 第 2 项 数据 结构 示意 


1-26 ”设置 DS、ES、FS、GS 


具体 的 设置 方式 与 图 1-23 类 似 ， 都 要 参考 
GDT 中 的 内 容 。 上 述 代码 中 的 movl$0x10，9%eax 
中 的 0x10 是 GDT 中 的 偏 移 值 (用 二 进 制 表示 就 是 
10000) ， 即 要 参考 GDT 中 第 2 项 的 信息 (GDT 项 


号 排序 为 第 0 项 、 第 1 项 、 第 2 项 ) 来 设置 这 些 段 寄 
存 右 ， 这 一 项 殉 生 内 核 数 据 段 摘 述 符 。 


APE 


各 段 重 要 ， 这 样 的 编码 操作 方式 需要 头脑 非 
WIE! 


SS 现在 也 要 转变 为 栈 段 选择 符 ， 栈 顶 指 计 也 
成 为 32 位 的 esp， 如 下 所 示 。 


lss _stack_start, %esp 


JE kernel/sched.c F, stack_start={ & 
user_stack[PAGE_SIZE > >2]，0x10} 这 行 代码 将 
栈 顶 指针 指 加 user_stack 数 据 结构 的 最 末 位 置 。 这 


个 数据 结构 是 在 kernel/sched.c 中 定义 的 ， 如 下 所 


一 


ZN: 


long user_stack[PAGE_SIZE > > 2] 


我 们 测算 出 其 起 始 位 置 为 0x1E25C 。 
小 贴 士 


设置 段 寄存 器 指令 (Load Segment 
Instruction) : 该 组 指令 的 功能 是 把 内 存单 元 的 一 
个 “ 低 字 ” 传 送 给 指令 中 指定 的 16 位 寄存 器 ， 把 随 
后 的 一 个 “高 字 ” 传 给 相应 的 段 寄 存 器 (DS ` ES ` 
FS、GS 和 SS) 。 其 指令 格式 如 下 : 


LDS/LES/LFS/LGS/LSS Mem,Reg 


指令 LDS (Load Data Segment Register) 和 
LES (Load Extra Segment Register) 在 8086 CPU 中 
就 存在 ， 而 LES 和 LGS、LSS (Load Stack Segment 
Register) 是 80386 及 其 以 后 CPU 中 才 有 的 指令 。 若 
Reg 是 16 位 寄存 器 ， 则 Mem 必 须 是 32 位 指针 ;， 若 
Reg 是 32 位 寄存 硕 ， 则 Mem 必 须 是 48 位 指针 ， 其 低 
32 位 给 指令 中 指定 的 寄存 人 名， 高 16 位 给 指令 中 的 
Px ay eas ° 


0x10 将 SS 设置 为 与 前 面 4 个 段 选 择 符 的 值 相 
后。 这 样 SS 与 前 面 讲解 过 的 4 个 段 选择 符 相 同 ， 段 
基 址 都 是 指向 0x000000， 段 限 长 都 是 gs MB， 特 权 
级 都 是 内 核 特 权 级 ， 后 面 的 压 栈 动作 残 要 在 这 里 


进行 。 


特别 值得 一 提 的 是 ， 现 在 刚刚 从 实 模式 转变 
到 保护 模式 ， 段 基 址 的 使 用 方法 和 实 模式 差别 非 
利 大 ， 要 使 用 GDT 产 生 段 基 址 ， 前 面 讲 到 的 那 几 
行 设置 段 选择 符 的 指令 本 身 都 是 要 用 GDT 导 址 
的 。 现 在 就 能 清楚 地 看 出 ， 如 果 没 有 setup 程 序 在 
16 位 实 模式 下 模拟 32 位 保护 模式 而 创建 的 GDT， 
念 避 前 面 这 儿 行 指令 都 无 法 执行 。 


注意 ， 栈 顶 的 增长 方 同 是 从 高 地 址 回 低 地 址 
的 ， 参 见 图 1-27。 注 意 栈 段 基 址 和 ESP 在 图 中 的 位 


0x00000 OxFFFFFF 
OxFFFFF 
I Ea 
Siac eas oe 二, 内核 祝 (0x1E25C) 
数据 段 基 址 aii 
栈 段 基 址 


4KB 
user stack[0] user stack[1024] 


ESP 
stack( 栈 ， 及 栈 顶 增长 方向 ) 


1-27 设置 栈 


我 们 现在 回忆 一 下 图 1-8 中 对 栈 顶 指针 的 设 
B, PYRE RSP, MIke RESP, %4 
IM SASF RER, he ATE DY PRP ATT (LE Vl 
整 。 这 段 内 容 对 应 的 代码 如 下 : 


/代码 路 径 : boot/head.s 


Iss __stack_start, %esp 


head 程 序 接 下 来 对 IDT 进 行 设 置 ， 人 代码 如 下 : 


/代码 路 径 : boot/head.s 
startup _32: 

movl $0x10, %eax 
mov %ax, %ds 


mov %ax, %es 


mov %ax, %fs 

mov %ax, %gs 

Iss __stack_start, %esp 
call setup_idt 

call setup_gdt 

setup _idt: 

lea ignore_int, %edx 


movl $0x00080000，%eax/*8 应 该 看 成 1000， 这 个 值 在 第 2 章 初 始 化 
IDT 时 会 用 到 


movw %dx, %ax/*selector=0x0008=cs*/ 

movw $0x8E00, %dx/*interrupt gate-dpl=0, present*/ 
lea_idt, %edi 

mov $256, %ecx 

rp _sidt: 

movl %eax, (%edi) 

movl %edx, 4 (%edi) 


addl $8, %edi 


dec %ecx 

jne rp_sidt 

lidt idt_descr 
ret 

.align 2 

ignore _ int: 
pushl %eax 
pushl %ecx 
pushl %edx 
push %ds 

push %es 

push %fs 

movl $0x10, %eax 
mov %ax, %ds 
mov %ax, %es 


mov %ax, %fs 


pushl $int_msg 
call _printk 
popl %eax 

pop %fs 

pop %es 

pop %ds 

popl %edx 
popl %ecx 
popl %eax 

iret 


idt _ descr: 
.word 256*8-1#idt contains 256 entries 
-long_idt 


.align 3 


_idt: .fill 256, 8, O#idt is uninitialized 


小 由 十 


一 个 中 断 描 述 符 的 结构 如 图 1-28 所 示 。 


7 | 中 断 服务 程序 偏 移 地 址 | (OFFSET) 31…16 位 6 
5 | P| DPL | 0 PE o 0 o ete | 4 
3 段 选择 符 | (SELECTOR) 2 


中 断 服务 程序 偏 移 地 址 | (0FFSET) 15…0 位 0 


图 1-28 ”中断 描述 符 


中 断 摘 述 符 为 64 位 ， 包 侣 了 其 对 应 中 断 服 务 
程序 的 段 内 偏 移 地 址 (OFFSET) 、 所 在 段 选择 符 


(SELECTOR) 、 描 述 符 特权 级 (DPL) ` BRF 
在 标志 (P) 、 段 描述 符 类 型 (TYPE) 等 信息 ， 
供 CPU 在 程序 中 需要 进行 中 断 服 务 时 找到 相应 的 
中 断 服 务 程序 。 其 中 ， 第 0~15 位 和 第 48 全 63 位 组 
合成 32 位 的 中 断 服务 程序 的 段 内 偏 移 地 址 
(OFFSET) ; 第 16~31 位 为 段 选择 符 
(SELECTOR) ， 定 位 中 断 服 务 程序 所 在 段 ; 第 
47 位 为 段 存在 标志 (P) ， 用 于 标识 此 段 是 否 存在 
于 内 存 中 ， 为 虚拟 存储 提供 文 持 ， 第 45~46 位 为 
特权 级 标志 (DPL) ， 特 权 级 范围 为 0~ 3; 第 40 
一 43 位 为 段 描述 符 类 型 标志 (TPYE) ， 中 断 描 壕 
符 对 应 的 类 型 标志 为 0111 (0xE) ， 即 将 此 段 描 述 
符 标记 为 “386 中 断 门 ”。 


这 征 重 建 你 护 模 式 下 中 断 服 务 体系 的 开始 。 
程序 先 让 所 有 的 中 断 手 述 得 默认 指 同 ignore_int 这 


个 位 置 〈 将 来 main 函 数 里 面 还 要 让 中 断 摘 述 符 对 
应 具体 的 中 断 服 务 程序 ) ， 之 后 还 要 对 IDT 寄 存 器 
的 值 进行 设置 。 图 1-29 显 示 了 具体 的 操作 状态 。 


0x00000 OxFFFFFF 


OxFFFFF 
i 


代码 自 基 址 
数据 段 基 址 
栈 段 基 址 


1-29 AIDT 


APE 


构造 IDT， 使 中 断 机 制 的 整体 染 构 先 搭 建 起 来 
(实际 的 中 断 服务 程序 挂 接 则 在 main 函 数 中 完 
成 ) ， 并 使 所 有 中 断 服务 程序 指向 同一 段 只 显示 
一 行 提示 信息 束 返 回 的 服务 程序 。 从 编程 技术 上 


讲 ， 这 种 初始 化 操作 ， 既 可 以 防止 无 意 中 黎 兰 代 
人 码 或 数据 而 引起 的 逻辑 混乱 ， 也 可 以 对 开发 过 程 
中 的 误 操 作 给 出 及 时 的 提示 。IDT 有 256 个 表 项 ， 

实际 只 使 用 了 几 十 个 ， 对 于 误 用 未 使 用 的 中 断 描 
述 符 ， 这 样 的 提示 信息 可 以 提醒 开发 人 员 注意 钳 


误 。 


现在 ，head 程 序 要 废除 已 有 的 GDT， 并 在 内 
核 中 的 新 位 置 重 新 创建 GDT， 如 图 1-30 所 示 。 其 
中 第 2 项 和 第 3 项 分 别 为 内 核 代 码 段 持 述 符 和 内 核 
效 据 段 招 述 符 ， 其 段 限 长 均 被 议 置 为 16 MB， 并 
设置 GDTR 的 值 。 


OxFFFFFF 
ie OxFFFFF | 
LL sm | 


“| ! 注 意 ， 原 gdt 废 除 不 用 。 


ARBEI a, 
EEE T 
gdt_descr “gdt descr+2 KB 
47 基地 址 Dmg? 
|  0x54B2_|7FF | 
GDTR 
si 
VER: 新 gdt 也 只 有 前 两 项 ， 


并 只 修改 了 原 表 中 的 段 限 长 。 


1-30 重新 创建 GDT 


代码 如 下 : 


/代码 路 径 : boot/head.s 
startup _32: 

movl $0x10, %eax 
mov %ax, %ds 


mov %ax, %es 


mov %ax, %fs 

mov %ax, %gs 

Iss __stack_start, %esp 
call setup_idt 

call setup_gdt 

setup _ gdt: 

Igdt gdt_descr 


ret 


gdt _ descr: 
.word 256*8-1#so does gdt (not that that's any 


long_gdt#magic number,but it works for me: ^) 


_idt: .fl 256, 8, O#idt is uninitialized 

_gdt: .quad 0x0000000000000000/*NULL descriptor*/ 
.quad 0x00c09a0000000fff/* 16Mb*/ 

.quad 0x00c0920000000fff/* 16Mb*/ 

.quad 0x0000000000000000/* TEMPORARY-don't use*/ 


fill 252, 8, 0/*space for LDT's and TSS's etc*/ 


为 什么 要 废除 原来 的 (GDT) 而 重新 设置 一 
套 GDT 呢 ? 


原来 GDT 所 在 的 位 置 是 设计 代码 时 在 setup.s 里 
面 设置 的 数据 ， 将 来 这 个 setup 模 块 所 在 的 内 存 位 
BSE Rt KAY OE mo URAL, 
ERGDTHIAI A BE Se eR KS ae tt, TT 


吧 系 统 的 运行 。 这样 一 来 ， 将 来 整个 内 存 中 唯一 
安全 的 地 方 就 是 现在 head.s 所 在 的 位 置 了 。 


那么 有 没有 可 能 在 执行 setup 程 序 时 直接 把 
GDTI 的 内 容 复制 到 head.s 所 在 的 位 置 呢 ? 肯定 不 
能 。 如 果 先 复制 GDT 的 内 容 ， 后 移动 system 模 
块 ， 它 怠 会 被 后 者 覆盖 :如果 先 移动 System 模块 ， 
后 复制 GDT 的 内 容 ， 它 又 会 把 head.s 对 应 的 程序 履 
着 ， 而 这 时 head.s 还 没有 执行 。 所 以 ， 无 论 如 何 ， 
都 要 重新 建立 GDT ° 


GDT 的 位 置 和 内 容 发 生 了 变化 ， 特 别 要 注意 
最 后 的 三 位 是 FFF， 说 明 段 限 长 不 是 原来 的 8 
MB， 而 是 现在 的 16MB。 如 果 后 面 的 代码 第 一 次 
使 用 这 几 个 段 选 择 特 ， 就 是 访问 8 MB 以 后 的 地 址 
空间 ， 将 会 产生 段 限 长 超 限 报 警 。 为 了 防止 这 类 


可 能 发 生 的 情况 ， 这 里 再 次 对 一 些 段 选择 各 

重新 设置 ， 包 括 DS、ES、FS、GS 及 SS， 方 法 与 

图 1-26 类 似 ， 主 要 是 段 限 长 增加 了 一 倍 ， 变 为 16 
述 过 程 如 图 1-31 所 示 。 


内 核 | aus i e 
= us) 


数据 段 限 长 :16 MB 


OxFFFFFF 


PE 


符 
0 


‘ B : 

i ia 15 : 

; BLA mee i 

EE U 

OCD 5200 : f 第 3 十 15 位 ， 
0 


47 cpT 基 地 址 15 限 长 0 ' 
GDTR  ， 


段 限 长 ，0x00FFFx4KB ->16 MB 


gdt_descr 第 2 项 数据 结构 示意 


1-31 再 一 次 调整 DS、ES、FS、GS 


调整 DS、ES 等 寄存 器 的 代码 如 下 : 


/代码 路 径 : boot/head.s 


movl $0x10, %eax#reload all the segment registers 
mov %ax, %ds#after changing gdt.CS was already 
mov %ax, %es#reloaded in'setup_gdt' 

mov %ax, %fs 

mov %ax, %gs 


现在 ， 栈 顶 指针 esp 指 向 user_stack 数 据 结构 的 
外 边 绿 ， 也 就 是 内 核 栈 的 栈 确 。 这 样 ， 当 后 面 的 
程序 需要 压 栈 时 ， 束 可 以 最 大 限度 地 使 用 栈 空 
间 。 栈 顶 的 增长 方向 是 从 高 地 址 向 低地 址 的 ， 如 
图 1-32 所 示 。 设 置 esp 的 代码 如 下 : 


/代码 路 径 : boot/head.s 


0x00000 OxFFFFFF 
内 核 OxFFFFF | 
(CB 。 1 内 被 械 (0x1E25C) 


数据 段 基 址 : 
栈 自 基 址 al 


4KB 
user_stack[0] user_stack[1024] 


ESP 
stackf( 栈 ， 及 栈 顶 增长 方向 ) 


图 1-32 设置 内 核 栈 


因为 A20 地 址 线 是 否 打开 影响 保护 模式 是 否 有 
效 ， 所 以 ， 要 检验 A20 地 址 线 是 否 确 实 打 开 了 。 图 
1-33 给 出 了 直观 的 标示 。 


0x00000 OxFFFFFF 


LEE mail 6 
! 在 0x000000 地 址 处 写 入 一 个 数值 


. 


和 
[1] T> 
| 相等 E$ 


k> 20 地 址 线 确实 已 经 打开 


1-33 ”检验 A20 是 否 打 开 


检验 A20 是 否 打 开 的 代码 如 下 : 


/代码 路 径 : boot/head.s 

xorl %eax, Weax 

1: incl%eax#check that A20 really IS enabled 
movl %eax, Ox000000#loop forever if it isn't 
cmpl %eax, 0x100000 

je 1b 


SAPP 


A20 如 朱 没 有 打开， 则 计算 机 处 于 20 位 的 寻 址 模 
式 ， 超 过 0xFFFFF 寻 址 必然 < 回 滚 ”。 一 个 特例 是 
0x100000 会 回 深 到 0x000000， 也 就 是 说 ， 地 址 
0x100000 处 存储 的 值 必然 和 地 址 0x000000 处 存储 
的 值 完全 相同 (参见 对 图 1-31 的 描述 ) 。 通 过 在 
内 存 0x000000 位 置 写 入 一 个 数据 ， 然 后 比较 此 处 
和 1 MB (0x100000， 注 意 ， 已 超过 实 模 式 寻 址 光 
围 ) 处 数据 是 否 一 致 ， 就 可 以 检验 A20 地 址 线 是 否 
EIPS 


确定 A20 地 址 线 已 经 打开 之 后 ，head 程 序 如 果 
全 测 到 数学 协 处 理 絮 存在 ， 则 将 其 设置 为 保护 模 
式 工 作 状 态 ， 如 图 1-34 所 示 。 


31 4 10 


HY CROW 
PG ET | |PE 
是 否 存 在 x87 协 处 理 器 MP 


EM 


存在 不 存在 
将 x87 设 置 为 保护 模式 设置 CRO = 


Al 1-34 检测 数学 协 处 理 需 
小 贴 士 


x87 协 处 理 器 : 为 了 弥补 x86 系 列 在 进行 浮 所 
运算 时 的 不 足 ，Intel 于 1980 年 推出 了 x87 系 列 数学 
协 处 理 器 ， 那 时 是 一 个 外 置 的 、 可 选 的 芯片 ( 笔 
者 当时 的 80386 计 算 机 上 就 没 安 装 80387 协 处 理 
az) 。1989 年 ，Intel 发 布 了 486 处 理 右 。 目 从 486 
开始 ， 以 后 的 CPU 一 般 痢 内 置 了 协 处 理 副 。 这 
样 ， 对 于 486 以 前 的 计算 机 而 客 ， 操 作 系 统 检验 
x87 协 处 理 需 是 否 存 在 就 非常 必要 了 。 


仿 测 数学 协 处 理 硕 对 应 的 代码 如 下 : 


/代码 路 径 : boot/head.s 

movl %cr0, %eax#check math chip 

andl $0x80000011, %eax#Save PG,PE,ET 
/*"orl$0x10020, %eax"here for 486 might be good*/ 
orl $2, %eax#set MP 

movl %eax, %cr0 

call check_x87 

jmp after_page_tables 

/* 

*We depend on ET to be correct.This checks for 287/387.*/ 
check _ x87: 

fninit 

fstsw %ax 

cmpb $0, %al 


je 1f/*no coprocessor: have to set bits*/ 


4 


movl %cr0, %eax 

xorl $6, %eax/*reset MP,set EM*/ 

movl %eax, %cr0 

ret 

.align 2 

1: .byteOxDB, OxE4/*fsetpm for 287, ignored by 387*/ 


Ret 


head*# F K A Val H main KOR VES © 
是 head 程 序 执行 的 最 后 阶段 ， 也 是 main 函 数 执 


行 前 的 最 后 阶段 。 具体 如 图 1-35 所 示 。 


AK OxFFFFF 
paga ae ‘|W eROx1E2SC) 

数据 段 基 址 iat 

BIL i 


user stack[0] user stack[1024] 


ESP 
stack( 栈 ， 及 栈 顶 增长 方向 ) 


1-35 “将 envp、argv、argc 压 栈 


head 程 序 将 L6 标 号 和 main 函 数 入 口 地址 压 
栈 ， 栈 顶 为 main 函 数 地 址 ， 目 的 是 使 head 程 序 执 
行 完 后 通过 ret 指 令 承 可 以 二 接 执 行 main 函 效 。 具 
体 如 图 1-36 所 示 。 


Noon OxFFFFFF 
内 核 OxFFFFF | 
Rama Kt 内 核 栈 (0x1E25C) 


数据 段 基 址 El 
EBLE ie 600 


user_stack[0] user_stack[1024] 


ESP 
stack( 栈 ， 及 栈 项 增长 方向 ) 


图 1-36 将 main 函 数 入 口 地 址 和 L6 标 号 压 栈 


SAPP 


main 畏 数 在 正 弟 情况 下 是 不 应 该 退出 的 。 如 
采 main 玉 数 异 弟 退出 ， 束 会 返回 这 里 的 标号 L6 处 


继续 执行 ， 此 时 ， 还 可 以 做 一 些 系统 调用 .…… 万 
外 有 意思 的 是 ， 即 使 main 函 数 退 出 了 ， 如 果 还 有 
进程 存在 ， 仍 然 能 够 进行 纶 转 。 


执行 代码 如 下 : 


/代码 路 径 : boot/head.s 

orl $2, %eax#set MP 

movl %eax, %cr0 

call check_x87 

jmp after_page_tables 

after _page_tables: 

pushl $0#These are the parameters to main: -) 
pushl $0 


pushl $0 


pushl $L6#return address for main,if it decides to. 
pushl $_main 

jmp setup_paging 

L6: 

jmp L6#main should never return here,but 


这 些 压 栈 动 作 完 成 后 ，head 程 序 将 跳 转 至 
setup_paging: 去 执行 ， 开 始 创建 分 页 机 制 。 


先 要 将 页 目录 表 和 4 个 页 表 放 在 物理 内 存 的 起 
人 位置， 从 内 存 起 始 位 置 开 始 的 5 页 空间 内 容 全 首 
ES (每 页 14KB) ， 为 初始 化 页 目录 和 页 表 做 准 
备 。 注 意 ， 这 个 动作 起 到 了 用 1 个 页 目录 表 和 4 个 
页 表 窗 协 head 程 序 目 身 所 占 内 存 空间 的 作用 。 图 1- 
7 给 出 了 直观 的 标示 。 


?so 0x0000~0x4FFF, 20 KB 
ease Winrar 
栈 段 基 址 i 
0x0000 0x1000 0x2000 0x3000 0x4000 Ox4FFF 
(_pg_dir) (pg0) (p21) (pg2) (pg3) 
页 目录 起 页 表 0-~3 


图 1.37 将 页 目录 表 和 页 表 放 在 内 存 起 始 位 置 
点 评 


将 页 目 好 表 和 4 个 页 表 放 在 物理 内 存 的 起 怒 位 
置 ， 这 个 动作 的 意义 重大 ， 是 操作 系统 能 够 掌控 

全 局 、 和 测控 进 程 在 内 存 中 安全 运行 的 基石 之 一 ， 
后 续 章 下 


BIEL ei o 


head 程 序 将 页 目录 表 和 4 个 页 表 所 占 物 理 内 存 
空间 清和 零 后 ， 设 置 页 目 邓 表 的 前 4 项 ， 使 之 分 别 指 


站 4 个 页 表 ， 如 图 1-38 所 示 。 


_— OxFFFFFF 
W SS << i 
Fee s 
iaa. 一 0x4FFF, 20 KB 
pasay O ROS 
ABLE HE ac 


0x4000 ona 


0x0000 0x1000 0x2000 0x3000 
(_pg_dir) (pg0) (pel) (pg2) (pg3 . 
盖 页 目录 表 一 | 页 表 0~3 io 
页 目录 中 的 4 个 页 表 项 地 址 已 填写 完毕 ! i to 
| Oxmooo | pih 
0 OxFFFFFF 
内 存 寻 址 空间 Aan ™ 


1-38 使 页 目录 表 的 前 4 项 指向 4 个 页 表 


head 程 序 设置 完 页 目录 表 后 ，Linux 0.11 在 保 


护 模式 下 支持 的 最 大 寻 址 地 址 为 0xFFFFFF (16 


MB) ， 此 处 将 第 4 个 页 表 (由 pg3 指 向 的 位 置 ， 的 


最 后 一 个 页 表 项 (pg3+4902 指 向 的 位 置 ) 指向 寻 


址 范围 的 最 后 一 个 页 面 ， 即 0xFFF000 开 始 的 4 KB 
字 太 大 小 的 内 存 空间 。 具 体 请 看 图 1-39 的 标示 。 


OxFFFFFF 


0x00000 
OxFFFFF 
E : 
k 
ae 0x0000--Ox4FFE, 20 KB 


ABE 


| 栈 段 基 址 : 
i 


0x0000 0x1000 0x2000 0x3000 0x4000 oe 
(pedir)  (pg0) (pg!) (pg2) (pg3) 
RAR KAS “OxffT007-08 1000 


H OxFFFFFF 
4K4K (16 MB) 


内 存 寻 址 空间 


Al 1-39 页 目 永 表 设 置 完成 后 的 状态 


然后 开始 从 高 地 址 同 低 地 址 方向 填写 4 个 页 
表 ， 依 次 指向 内 存 从 高 地 址 向 低地 址 方向 的 各 个 
页 面 。 图 1-39 所 示 是 首次 设置 页 表 。 


继续 设置 页 表 。 将 第 4 个 页 表 〈 由 pg3 指 向 的 
位 置 ) 的 倒数 第 二 个 页 表 项 (pg3-4+4902 指 向 的 
ME) 指向 倒数 第 二 个 页 面 ， 即 0xFFF000~ 
0x1000 (0x1000 即 4 KB， 一 个 页 面 的 大 小 ) 开始 
的 4 KB 字 节 内 存 空间 。 请 读者 认真 对 比 图 1-40 和 
图 1-39， 有 多 处 位 置 发 生 了 变化 。 


0x00000 i 
内 六 OxFFFFF $5 
SS ae x0000~0x4FFF, 20 KB 
ett a Ja 页 目录 表 及 4 个 员 表 
本 pg3-4+4902 


0x0000 0x1000 0x2000 0x3000 0x4000 oct 
(pg_dir) oe (pg!) (pg2) (pg3 wen 


RAR Z REO OKP FFO07;0x1000 


H OxFFFFFF 
4K4K (16 MB) 


内 存 寻 址 空间 


图 1-40 设置 页 表 


最 终 ， 从 高 地 址 向 低地 址 方向 完成 4 个 页 表 的 
填写 ， 页 表 中 的 每 一 个 页 表 项 分 别 指 回 内存 从 高 
地 址 同 低 地 址 方 品 的 各 个 页 面 ， 如 图 1-41 所 示 。 
其 总 体 效 果 如 图 1-42 所 示 。 


0x00000 OxFFFFFF 
à = 
~ ed x0000 一 0x4FFF,20 KB 
人 


| 栈 段 基 址 


0x3 
(pg2) 
页 表 0-~3 

页 目录 表 和 页 表 全 部 填写 完毕 ! 


0x2000 
(pg1) 


1-41 页 目录 表 和 页 表 设 置 完毕 的 状态 


)x0000 0x1000 0x2000 0x3000 0x4000 Ox4FFF 
( pg dir) (pg0) (pgl) (pg2) (pg3) 


1-42 ”总 体 效 果 图 


页 表 痢 是 内 核 专 属 的 页 表 ， 将 来 每 个 用 
户 进 程 都 会 有 有 它们 专属 的 页 表 。 对 于 两 着 在 寻 
范围 方面 的 区 别 ， 我 们 将 在 用 户 进 程 与 内 存 管理 
一 革 中 评 细 介绍 。 


图 1-39 一 图 1-41 中 发 生动 作 的 相应 代码 如 下 : 


/代码 路 径 : boot/head.s 

.align 2 

setup _paging: 

movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, Yeax 

xorl %edi, %edi/*pg_ dir is at Ox000*/ 

cld; rep; stosl 


/#* 下 面 儿 行 中 的 7 应 看 成 二 进 制 的 111， 是 页 属性 ， 代 表 uws、Yw、 


Present， 


111 代 表 ， 用 户 u、 读 写 rw、 存 在 pn，000 代 表 ， 内 核 s、 只 读 r、 不 存 
企 */ 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dirt+4/*--------- Sateen ate */ 
movl $pg2+7, _pg_dirt+8/*--------- iL eee ae */ 
movl $pg3+7, _pg_dir+12/*--------- ER */ 


movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


这 些 工 作 完 成 后 ， 内 存 中 的 布局 如 图 1-43 所 
示 。 可 以 看 出 ， 只 有 184 字 节 的 剩余 代码 。 由 此 可 


见 ， 在 设计 head 程 序 和 system 模 块 时 ， 其 计算 是 非 
党 精确 的 ， 对 head.s 的 代码 量 的 控制 非常 到 位 。 


head 程 序 已 将 页 表 设 置 完毕 了 ， 但 分 页 机 制 
的 建立 还 没有 完成 ， 还 需要 设置 页 目录 表 基 址 寄 
存货 CR3， 便 之 指 回 页 目 永 表 ， 再 将 CR0 寄 存 秦 设 
置 的 最 高 位 〈31 位 ) 置 为 1， 如 图 1-44 所 示 。 


0x064b8 


0x05cb8 


0x054b8 
0x05400 


0x05000 


0x04000 


0x03000 


0x02000 


0x01000 


0x00000 


图 1-43 内 存 分 布 示意 图 
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0x0000 0x1000 0x2000 0x3000 0x4000 
(_pg_dir) (pg0) (pg!) (pg2) (pg3) 
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1-44 分 页 机 制 完成 后 的 忌 体 状态 
小 由 十 


PG (Paging) 标志 : CR0 寄 存 器 的 第 31 位 ， 
分 页 机 制 控制 位 。 当 CPU 的 控制 寄存 器 CR0 第 0 位 
E (保护 模式 ) 置 为 1 时 ， 可 设置 PG 位 为 开启 。 
当 开 局 后 ， 地 址 映 喘 模 式 采 取 分 页 机 制 。 当 CPU 
的 控制 寄存 器 CR0 第 0 位 PE (保护 模式 ) 置 为 0 
时 ， 设 置 PG 位 将 引起 CPU 发 生 异 稍 。 


CRI Far: 3 号 32 位 控制 寄存 硕 ， 其 高 20 位 
存放 页 目录 表 的 基地 址 。 当 CR0 中 的 PG 标 志 置 位 
时 ，CPU 使 用 CR3 指 回 的 页 目 孙 表 和 页 表 进 行 虚 拟 
地 址 到 物理 地 址 的 映射 。 


执行 代码 如 下 : 


/代码 路 径 : boot/head.s 

xorl %eax, %eax/*pg_dir is at OX0000*/ 
movl %eax, %cr3/*cr3-page directory start*/ 
movl %cr0, %eax 

orl $0x80000000, %eax 

movl %eax, %cr0/*set paging (PG) bit*/ 


前 两 行 代码 的 动作 生 将 CR3 指 同 页 目 永 表 ， 
意味 着 操作 系统 认定 0x0000 这 个 位 置 就 是 页 目录 
表 的 起 始 位 置 ， 后 3 行 代码 的 动作 是 局 动 分 页 机 制 
开关 PG 标志 苞 位 ， 以 局 用 分 页 寻 址 模式 。 两 个 动 
作 一 气 呵 成 。 到 这 里 为 止 ， 内 核 的 分 页 机 制 构建 
完毕 。 后 续 革 市 还 会 讲解 如 何 建 并 用 户 进 程 的 分 
页 机 制 。 


最 重要 的 是 下 面 这 一 行 代码 。 它 看 似 侧 千 ， 
但 用 总 深 远 。 


xorl %eax, Weax/*pg dir is at Ox0000*/ 


回 过 头 来 看 ， 图 1-17 将 system 模 块 移 动 到 
0x00000 处 ， 图 1-25 在 内 存 的 起 始 位 置 建 立 内 核 分 
TNL, Baie LMT, Wen Ase 


表 在 内 存 的 起 始 位 置 。 三 个 动作 联合 起 来 为 操作 
系统 中 最 重要 的 目的 一 “内核 控 制 用 户 程序 商定 
了 基础 。 这 个 位 置 是 内 核 通过 分 页 机 制 能 够 实现 
线性 地 址 等 于 物理 地 址 的 唯一 起 始 位 置 。 我 们 会 
在 后 续 章节 逐 层 展开 讨论 。 


head 程 序 执行 最 后 一 步 : ret。 这 要 通过 跳 入 
main 函 数 程序 执行 。 


在 图 1-36 中 ，main 范 数 的 入 口 地 址 被 于 入 了 
栈 顶 。 现 在 执行 rat 了 ， 正 好 将 压 入 的 main 函 数 的 
执行 入 口 地 址 弹出 给 EIP。 图 1-45 标 示 了 出 栈 动 
作 。 


0x00000 OxFFFFFF 


Wy Be OxFFFFF 
r 


代码 段 基 址 -| 内 核 模 (0x1E25C) 


数据 段 基 址 ery: 
RENERE 000 

user_stack[0]) user_stack[1024] 
H 弹出 main 函 数 地 址 
| EIP | 


main 


ESP 
stack( 栈 ， 及 栈 顶 增长 方向 ) — 


1-45 ”执行 ret， 将 main 函 数 入 口 地 址 弹出 给 
EIP 


这 部 分 代码 用 了 底层 代码 才 会 使 用 的 技巧 。 
我 们 结合 图 1-45 对 这 个 技巧 进行 评 细 讲解 。 我 们 
先 看 看 普通 函数 的 调用 和 返回 的 方法 。 因 为 Linux 
0.11 用 返回 方法 调用 main 画 数 ， 返 回 位 置 和 main 画 
数 的 入 口 在 同一 段 内 ， 所 示 我 们 只 讲解 段 内 调用 
和 返回 ， 如 图 1-46 ( 仿 call 示 意图 ) 所 示 。 


call 的 调用 与 返回 


图 1-46 仿 call 示 意图 


call 指令 会 将 EIP 的 信和 目 动 讨 栈 ， 体 护 返 回 现 
场 ， 然 后 执行 被 调 国 数 的 程序 。 等 到 执行 被 调 函 
数 的 ret 指 令 时 ， 目 动 出 栈 给 EIP 并 还 原 现场 ， 继 续 
执行 cal 的 下 一 行 指令 。 这 征 通 贡 的 函数 调用 方 
法 。 对 操作 系统 的 main 函 数 来 说 ， 这 个 方法 歼 有 
HEET ° main KATERE RAH o URH cally 
HIER AA mainen a, HBA reth i Ea EE? 
难道 还 有 一 个 更 底层 的 系统 程序 接收 操作 系统 的 
返回 吗 ? 操作 系统 已 经 是 最 底层 的 系统 了 ， 所 以 
逻辑 上 不 成 立 。 那 么 如 何 既 调 用 了 操作 系统 的 
main 函 数 ， 又 不 需要 返回 呢 ? 操作 系统 的 设计 者 
采用 了 图 1-46 ( 仿 call 示 意图 ) 所 示 的 方法 。 


这 个 方法 的 妙 处 在 于 ， 是 用 ret 实 现 的 调用 操 
作 系 统 的 main 芳 数 。 有 既然 古 ret 调 用 ， 当 然 束 不 需 
要 再 用 ret 了 “。 不 过 ，call 做 的 压 栈 和 跳 转 的 动作 谁 


来 做 呢 ? 操作 系统 的 设计 者 做 了 一 个 仿 call 的 动 
作 ， 手 工 编写 代码 压 栈 和 跳 转 ， 模 仿 了 call 的 全 音 
动作 ， 实 现 了 调用 setup_paging 了 范 数 。 , ER 
的 EIP 信 并 不 是 调用 ng 下 一 行 指 
SWE, MERER Amain aA ATA O 
地 址 _main。 这 样 ， 当 setup_paging 函 数 执行 到 ret 
时 ， 从 栈 中 将 操作 系统 的 main 芳 数 的 执行 入 口 地 
址 main 目 动 出 栈 给 EIPEIP 指 向 main 函 数 的 入 口 地 
址 ， 实 现 了 用 返回 指令 “调用 "main 函数。 


在 图 1-46 中 ， 将 压 入 的 main 芳 数 的 执行 入 口 
地 址 弹出 给 CS: EIP， 这 人 句 话 等 价 于 CPU 开 始 执行 
main 函 数 程序 。 图 1-47 标 示 了 这 个 状态 。 


0x00000 Ox9FFFF OxFFFFF OxFFFFFFFF 


| 禁止 
| | 中 
ae ie i i 
3 | iin 
ROM mos E VGA 
bee [APRs x1E25C) 


user stack[0] user stack[1024] 


| ESP 
main() {init/main.c, 0x664C) EIP 


Al 1-47 开始 执行 main 函 数 
点 评 
为 什么 没有 最 先 调用 main 芳 数 ? 


学 过 C 语 言 的 人 都 知道 ， 用 C 语 言 设计 的 程序 
都 有 一 个 main 函 数 ， 而 且 是 从 main 函 效 开 始 执行 
的 。Linux 0.11 的 代码 是 用 C 语 言 编写 的 。 和 奇怪 的 

， 为 什么 在 操作 系统 局 动 时 先 执行 的 是 三 个 由 
汇编 语言 写成 的 程序 ， 然 后 才 开 始 执行 main 男 


效 ; 为 什么 不 是 像 我 们 玫 知 的 C 语 言 程序 那样 ， 从 
main 函 数 开 始 执行 呢 。 


通 单 ， 我 们 用 C 语 言 编写 的 程序 都 是 用 户 应 用 
程序 。 这 类 程序 的 执行 有 一 个 重要 的 特征 ， 融 是 
必须 在 操作 系统 的 平台 上 执行 ， 也 束 古 况 ， 要 由 
操作 系统 为 应 用 程序 创建 进程 ， 并 把 应 用 程序 的 
可 执行 代码 从 硬盘 加 载 到 内 存 。 现 在 我 们 讨论 的 
征 操 作 系统 ， 不 是 普通 的 应 用 程序 ， 这 样 束 出 现 
了 一 个 问题 ， 应 用 程序 古 由 操作 系统 加 载 的 ， 操 
作 系 统 该 由 谁 加载 呢 ? 


从 前 面 的 节 中 我 们 知道 ， 加 载 操 作 系统 的 时 
ik, 计算 机 刚刚 加 电 ， 只 有 BIOS 程 序 在 运行 ， 而 
且 此 时 计算 机 处 在 16 位 实 模 式 状态 ， 通 过 BIOS 程 
序 自 身 的 代码 形成 的 16 位 的 中 断 向 量 表 及 相关 的 


16 位 的 中 断 服 务 程序 ， 将 操作 系统 在 软盘 上 的 第 
WK (5125477) 的 代码 加 载 到 内 存 ，BIOS 能 
动 操 作 的 内 容 也 就 到 此 为 止 了 。 准 确 地 说 ， 这 是 
一 个 约定 。 对 于 第 一 扇 区 代码 的 加 载 ， 不 论 是 什 
么 操作 系统 都 是 一 样 的 ， 从 第 二 局 区 开始 ， 就 要 
由 第 一 局 区 中 的 代码 来 完成 后 续 的 代码 加 载 工 
作 。 


当 加 载 工 作 完 成 后 ， 好 像 仍 然 没 有 立即 执行 
main 另 数 ， 而 是 打开 A20， 打 开 pe、pg， 建 立 
IDT、GDT.……. 然 后 才 开 始 执行 main 函 效 ， 这 十 什 
么 道理 ? 


原因 是 ，Linux 0.11 是 一 个 32 位 的 实时 多 任务 
的 现代 操作 系统 ，main 函 数 肯 定 要 执行 的 是 32 位 
的 代码 。 编 译 控 作 系统 代码 时 ， 是 有 16 位 和 32 位 


不 同 的 编译 选项 的 。 如 有 宁 选 了 16 位 ，C 语 言 编 译 出 
来 的 代码 是 16 位 模式 的 ， 结 果 可 能 是 一 个 int 型 变 
量 ， 只 有 2 字 节 ， 而 不 是 32 位 的 4 字 世 ..…. 这 不 是 
Linux 0.11 想 要 的 。Linux 0.11 要 的 是 32 位 的 编译 结 
果 。 只 有 这 样 才能 成 为 32 位 的 操作 系统 代码 。 这 
样 的 代码 才能 用 到 32 位 总 线 (打开 A20 后 的 总 

线 ) ， 才 能 用 到 保护 模式 和 分 页 ， 才 能 成 为 32 位 
的 实时 多 任务 的 现代 操作 系统 。 


开机 时 的 16 位 实 模 式 与 main 了 范 数 执行 需要 的 
32 位 保护 模式 之 间 有 很 大 的 差距 ， 这 个 差距 谁 来 
填补 ? head.s 做 的 融 是 这 项 工作 。 这 期 间 ，head 程 
序 打 开 A20， 打 开 pe、pg， 废 弃 旧 的 、16 位 的 中 断 
响应 机 制 ， 建 立新 的 32 位 的 IDT..…. 这 些 工 作 都 做 
完了 ， 计 算 机 已 经 处 在 32 位 的 保护 模式 状态 了 ， 
调用 32 位 main 函 数 鸭 一 切 条 件 已 经 准备 完毕 ， 这 


时 顺理成章 地 调用 main 函 数 。 后 面 的 操作 整 可 以 
用 32 位 编译 的 main 函 数 完 成 。 


ZH, Linux 0.11 内 核 启 动 的 一 个 重要 阶段 已 
经 完成 ， 接 下 来 束 要 进入 main 函 数 对 应 的 代码 


f° 
特别 需要 提示 的 是 ， 此 时 仍 处 在 关闭 中 断 的 
KAS | 


1.4 本 章 小 结 


本 章 的 内 容 主 要 分 为 两 大 部 分 。 第 一 部 分 为 
加 载 操 作 系统 ;第 二 部 分 为 32 位 保护 、 分 页 模式 
下 的 main 函 数 的 执行 做 准备 。 


从 借助 BIOS 将 bootsect.s 文 件 加 载 到 内 存 开 
始 ， 相 继 加 和 载 了 setup.s 文 件 和 system 文 件 ， 从 而 完 
成 探 作 系 统 程 序 的 加 载 。 


接 下 来 设置 IDT、GDT、 页 目录 表 、 页 表 以 
及 机 器 系统 数据 ， 为 32 位 保护 、 分 页 模式 下 的 
main EK ALA PUT BUS © 


一 切 惑 绪 后 ， 跳 转 到 main 函 数 执 行 入 口 ， 开 
始 执行 main 函 数 。 


Ble ”设备 环境 初始 化 及 激活 进程 0 
从 现在 开始 执行 main O 画 数 ! 


AGUAS BE U 状态 前 所 做 的 一 切 准 备 工作 
的 核心 目的 束 是 让 用 户 程 序 能 够 以 “进程 ”的 方式 
下 剃 运行 。 能 够 实现 这 一 目的 的 标准 包括 二 方面 
IAA: 用 户 程序 能 够 在 主机 上 进行 运算 ， 能够 
写 外 设 进 行 交 互 ， 以 及 能 够 让 用 户 以 它 为 媒介 进 
行人 机 交互 。 本 章 讲 解 的 内 容 就 是 为 了 实现 这 个 
目标 ， 对 设备 环境 进行 初 怒 化 ， 并 激活 第 一 个 进 
程 一 一 进程 0。 

Linux 0.11 是 一 个 文 持 多 进程 的 现代 操作 系 


统 。 这 束 意 味 看 ， 各 个 用 户 进 程 在 运行 过 程 中 ， 
彼此 不 能 相互 干扰 ， 这 样 才能 人 证 进程 在 主机 中 


正常 地 运算 。 然 而 ， 进 程 自身 并 没有 一 个 天 然 
的 * 边 弄 ? 来 对 其 进行 保护 ， 要 靠 系统 < 人 为 ”地 给 
它 设 计 一 套 “ 边 界 ” 来 对 其 进行 保护 。 这 套 “ 边 
界 ” 束 是 系统 为 进程 提供 的 进程 管理 信息 数据 结 
构 。 进 程 管理 信息 数据 结构 包括 : task_struct ` 
task[64]、GDT 等 。task_struct 是 每 个 进程 所 独 有 
的 结构 。 它 标识 了 进程 的 各 项 属性 值 ， 包 括 算 余 
时 间 瞩 、 进 程 执行 状态 、 局 部 数据 描述 符 表 
(LDT) 和 任务 状态 描述 符 表 (TSS) 等 。 
task[64] 和 GDT 是 为 管理 多 进程 提供 的 数据 结构 。 
task[64] 结 构 中 存储 着 系统 中 所 有 进程 的 
task_structfg#t 。 如 果 操 作 系 统 需 要 对 多 个 进程 加 
以 比较 并 选择 ， 就 可 以 通过 过 有 历 task[64] 结 构 来 实 
现 。GDT 中 存储 着 一 套 针 对 所 有 进程 的 索引 结 


构 。 通 过 索引 项 ， 操 作 系 统 可 以 间接 地 与 每 个 进 
程 中 的 LDT 和 TSS 建 立 关 系 。 


本 章 还 将 讲解 操作 系统 是 如 何 对 内 存 、 
CPU ` {TO ` ERR EA EA AAE 
CRT BOR, ERER A P AE 
序 与 IDT 相 挂 接 ， 为 进程 0 及 其 直接 、 间 接 创建 的 
所 有 后 续 进 程 与 外 设 沟 通 构建 环境 。 


21 设置 根 设备 2) < EN 


内 核 首 移 初 始 化 根 设备 和 硬盘 ， 用 bootsect 中 
写 入 机 器 系统 数据 0x901FC 〈 见 1.2.3 节 ) 的 根 设 
备 为 软盘 的 信息 ， 设 置 软盘 为 根 设备 ， 并 用 起 始 
目 0x90080 的 32 字 世 的 机 右 系 统 数 据 的 便 盘 参数 表 
设置 内 核 中 的 硬盘 信息 drive_info ° 


具体 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


#define DRIVE INFO (* (struct drive info *) 0x90080) MER 
数 表 ， 参 看 机 器 系统 数据 


#define ORIG_ROOT_DEV (* (unsigned short *) Ox901FC) // 根 
设备 号 


struct drive_info{char dummy[32]; }drive_info; /存放 硬盘 参数 表 
的 数据 结构 


void main (void) 
{ 


ROOT _DEV=ORIG ROOT_DEV; /根据 bootsect 中 写 入 机 器 系统 
数据 的 信息 设置 根 设备 为 软盘 


drive _info=DRIVE_INFO; /的 信息 ， 设 置 为 根 设备 


ee 


设置 根 设 备 为 软 如 以 及 设置 便 盘 参数 表 完 成 
后 的 数据 在 内 存 中 的 位 置 如 图 2-1 所 示 。 


9200990 0x9FFFF OxFFFFF OQx3FFFFF OQxSFFFFF OxFFFFFF 


Al 2-1 设置 根 设 备 号 和 价 盘 参数 表 
[1] 念 速 的 意思 束 旦 操作 系统 已 经 完成 了 所 有 的 准 
备 工 作 ， 随 时 可 以 啊 应 用 户 的 激励 。 此 处 信用 了 
汽车 的 “ 尽 速 ”一 词 ， 是 为 了 更 加 形象 。 汽 车 进入 


Au 


尽 速 状态 ， 环 意味 看 汽车 已 经 完全 启动 ， 只 要 区 
PLURAL |, BURT LAIR FATE I ° 
[2] HRI ERMA EMI, VERMIN 
参看 第 3 章 的 加 载 根 文 件 系统 一 他 。 


2.2 ”规划 物理 内 存 榈 局， 设置 缓冲 
x > RMR ENF 


接 下 来 设置 缓 剖 区、 虚拟 盘 、 主 内 存 。 主 机 
中 的 运算 需要 CPU、 内存 相 互 配 合 工 作 才 能 实 
现 ， 内 存 也 是 参与 运算 的 重要 部 件 。 对 内 存 中 绥 
冲 区 、 主 内 存 的 设置 、 规 划 ， 从 根本 上 决定 了 所 
有 进程 使 用 内 存 的 数量 和 方式 ， 必 然 会 影响 到 进 
程 和 在 主机 中 的 运算 速度 。 


具体 规划 如 下 : 除 内 核 代码 和 数据 所 占 的 内 
存 空间 之 外 ， 其 余 物理 内 存 主 要 分 为 二 部 分 ， 分 
别 征 主 内 存 区 、 缓 冲 区 和 虚拟 一 。 主 内 存 区 十 进 
程 代码 运行 的 空间 ， 也 包括 内 核 管理 进程 的 数据 
结构 ， 绥 冲 区 主要 作为 主机 与 外 设 进行 数据 交互 


的 中 转 站 ; “虚拟 盘 区 "是 一 个 可 选 的 区 域 ， 如 果 
选择 使 用 虚拟 盘 ， 就 可 以 将 外 设 上 的 数据 先 复制 
进 虚 拟 副 区 ， 然 后 加 以 使 用 。 由 于 从 内 存 中 操作 
数据 的 速度 远 高 于 外 设 ， 因 此 这 样 可 以 提高 系统 
执行 效率 。 


这 里 ， 系 统 要 对 主 内 存 中 的 这 三 种 不 同性 质 
的 区 域 ， 在 大 小 、 位 置 以 及 定理 方式 方面 进行 规 
划 。 


先 根 据 内 存 大 小 对 缓冲 区 和 主 内 存 区 的 位 置 
和 大 小 进行 如 图 2-2 所 示 的 初步 设置 。 


针对 物理 内 存 条 的 实际 大 小 ， 对 内 存 使 用 进行 不 同 的 规划 


_ ERS 


Al 2-2 内 存 的 初步 设置 


具体 执行 代码 如 下 : 


// 代 码 路 径 : init/main.c: 


#define EXT_MEM_K (* (unsigned short *) Ox90002) /从 1 MB 


开始 的 扩展 内 存 (KB) 数 


memory _end= (1< <20) + (EXT MEM K<<10) ; //1 
MB+ 扩 展 内 存 (MB) 数 ， 即 内 存 总 数 


memory _end&=Oxfffff000:; / 按 页 的 倍数 取 整 ， 忽 略 内 存 末端 不 
足 一 页 的 部 分 


if (memory_end > 16*1024*1024) 
memory _end=16*1024*1024; 

if (memory_end > 12*1024*1024) 
buffer _memory_end=4*1024*1024; 
else if (memory_end > 6*1024*1024) 
buffer _memory_end=2*1024*1024; 
else 


buffer _memory_end=1*1024*1024; 


main _memory_start=buffer_memory_end; /缓冲 区 之 后 就 是 主 内 
存 


ee ee 


其 中 memory_end 为 系统 有 歼 内 存 末 端 位 置 。 
超过 这 个 位 置 的 内 存 部 分 ， 在 操作 系统 中 不 可 
见 。main_memory_start 为 主 内 存 区 起 始 位 置 。 
buffer_memory_end 为 绥 神 区 末端 位 置 。 对 于 缓冲 
区 的 起 始 位 置 ， 我 们 将 在 2.10 广 中 详细 介绍 。 


小 由 于 


BLN HALES ` BRAK A Fe IC 
E: 


< < 207E% > >20 相 当 于 乘 或 除 以 1 MB. 


<<12 或 > >12 相 当 于 乘 或 除 以 4KB (联想 
到 页 ) ， 


< <10 或 > >10 相 当 于 乘 或 除 以 LKB © 


所 以 ，1< <20 就 是 1 MB,EXT_MEM K< < 
10 就 是 EXT_MEM K (扩展 内 存 的 KB 数 ) AYA 
数 。 


2.3 ”设置 虚 拟 副 空间 并 初 妨 化 


接 下 来 将 对 外 设 中 的 虚拟 盘 区 进行 设置 。 检 
查 makefile 文 件 中 “虚拟 副 使 用 标志 ”是 舍 设 置 ， 以 
此 确定 本 系统 是个 使 用 了 虚拟 盘 。 我 们 设 定 本 书 
所 用 计算 机 有 16 MB 的 内 存 ， 有 虚拟 盘 ， 且 将 虚 
拟 盘 大 小 设置 为 2 MB。 操 作 系统 从 缓冲 区 的 来 病 
起 开辟 2 MBA FZ HENEM, ENTEU 
ME MBER AA ARM ° B2-37 Tix 
ENA AEN FIARE E ° 


针对 物理 内 存 条 的 实际 大 小 ， 对 内 存 使 用 进行 不 同 的 规划 
0xFFFFF ”0x3FFFFF ëi ét 


6-12MB SS 


= 


<6MB S| 


图 2-3 物理 内 存 规划 格局 


调用 rd_init O 函数 ， 开 始 对 虚拟 到 进 行 设 
置 ， 具 体 执 行 代码 如 下 : 


// 代 码 路 径 : init/main.c: 


void main (void) 


#ifdef RAMDISK 


main _memory_start+=rd_init 
(main memory_start,RAMDISK*1024) ; 


#endif 


ee 


ee 


struct blk_dev_struct{ 
void (*request_fn) (void) ; 


struct request 党 current_request; 


ee ee 


/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: WU 可 以 理解 为 low level 


struct blk_dev_struct blk_dev[NR_BLK_DEV]={ 
{NULL,NULL}, /*no_dev*/ 

{NULL,NULL}, /*dev mem*/ 

{NULL,NULL}, /*dev fd*/ 

{NULL,NULL}, /*dev hd*/ 

{NULL,NULL}, /*dev ttyx*/ 

{NULL,NULL}, /*dev tty*/ 


{ NULL,NULL}/*dev lp*/ 


// 代 人 码 路 径 : kernel/ramdisk.c: 


ee 


long rd_init (long mem_start,int length) //hd_init () ` floppy_init 


() 与 此 类 似 


int 


char * cp; 


blk _dev[MAJOR_NR].request_fn=DEVICE_REQUEST; // 挂 接 
do_rd_request 


rd_start= (char *) mem_start; 
rd _length=length; 

cp=rd_start; 

for (i=0; i<length; i++) 
*cp++=\0; /初始 化 为 0 
return (length) ; 


} 


在 rd_init O KAF, ARKEMA KT 
求 项 处 理 函 数 do_rd_request () 与 图 2-4 中 的 请 求 
项 函数 控制 结构 blk_dev[7] 的 第 二 项 挂 接 。 


blk_dev[7] 的 主要 功能 是 将 某 一 类 设备 与 它 对 应 的 
请 求 项 处 理 函 数 挂钩 。 可 以 看 出 我 们 讨论 的 操作 
系统 最 多 可 以 管理 6 类 设备 。 请 求 项 将 在 2.6T 中 
详细 解释 。 这 个 挂 接 动 作 意 味 看 以 后 内 核能 够 通 
过 调用 do_rd_request 函 数 处 理 与 虚拟 一 相关 的 请 
求 项 操作 。 挂 接 之 后 ， 将 虚拟 盘 所 在 的 内 存 区 域 
全 部 初始 化 为 0。 图 2-4 表 示 了 rd_init () 函数 的 执 


Ox9FFFF REPEY Ox3FFFFF OxSFFFFF OxFFFFFF 
m... permeti 


AB 核 数据 区 
aiena u WE 


ett, Seg 


do rd request if Mill dev[7] 


ee | 


"ge... “S855 
HSI LTT 


Al 2-4 虚拟 盘 设 置 与 初始 化 


最 后 将 虚拟 盘 区 的 长 度 值 返 回 。 这 个 返回 值 
将 用 来 重 狐 设置 主 内 存 区 的 起 始 位 置 。 


24 内 存 管理 结构 mem_map 初 始 化 


对 主 内 和 存 区 起 始 位 置 的 重新 确定 ， 标 志春 主 
内 存 区 和 缓冲 区 的 位 置 和 大 小 已 经 全 都 确定 了 ， 
于 是 系统 开始 调用 mem_init () 函数 。 先 对 主 内 
存 区 的 窒 理 结构 进行 设置 ， 该 过 程 如 图 2-5 所 示 。 


Ox00900 OxOFFFF OxFFFFF 0x3FFFFF 0x5FFFFF OxFFFFFF 
内 存 页 面 状 态 管理 
| Ts 
od ee scones 元 
“内核 代码 区 控制 一 个 页 面 的 使 用 次 数 
ee 16 MB 
eS 首先 将 他 用 次 数 
全 部 设置 成 100 
IMB 6MB 16 MB 
之 后 将 主 内 存 区 
| 页 面 设置 为 “未 
mem_map [] 设 置 后 ee pices 使 用 ”状态 
: mem_map [设置 前 1 MB 16 MB 


6 MB 
和 国人 可 | 时 | 


图 2-5 mem_map 初 始 化 


具体 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


ee 


ee ee 


#define LOW_MEM 0x100000//1 MB 
#define PAGING MEMORY (15*1024*1024) 


#define PAGING PAGES (PAGING MEMORY > >12) /15 MB 的 
页 数 


#define MAP NR (addr) ( ( (addr) -LOW MEM) > >12) 


#define USED 100 


void mem_init (long start_mem,long end_mem) 
{ 

int 1; 

HIGH MEMORY=end mem:; 

for (i=0; i<PAGING_PAGES; i++) 

mem _map[i]=USED; 

i=MAP_NR (start_mem) ; /start_mem 为 6 MB (EMAZ JA) 
end _mem-=start_mem; 

end_mem> >=12; /16 MB 的 页 数 

while (end_mem-->0) 

mem _mapli++]=0; 


} 


系统 通过 mem_map[] 对 1 MB 以 上 的 内 存 分 页 
进行 管理 ， 记 有 杂 一 个 页 面 的 使 用 次 数 。 


meminit () 画 数 先 将 所 有 的 内 存 页 面 使 用 
计数 均 设置 成 USED (100， 即 被 使 用 ) ， 然 后 再 
将 主 内 存 中 的 所 有 页 面 使 用 计数 全 部 清 零 ， 系 统 
以 后 只 把 使 用 计数 为 0 的 页 面 视 为 空 闪 页 面 。 


那么 为 什么 系统 对 1 MB 以 内 的 内 存 空间 不 用 
这 种 分 页 方法 管理 呢 ? 这 是 因为 ， 操 作 系统 的 设 
计 痢 对 内 核 和 用 户 进 程 采用 了 两 父 不 同 的 分 页 管 
理 方法 。 内 核 采用 分 页 管理 方法 ， 线 性 地 址 和 物 
理 地 址 有 古 完 全 一 样 的 ， 有 古 一 一 映 喘 的 ， 等 价 于 内 
核 可 以 直接 获得 物理 地 址 。 用 户 进 程 则 不 然 ， 线 
性 地 址 和 物理 地 址 夸 异 很 大 ， 之 间 没 有 可 逮 推 的 


逻辑 关系 。 操 作 系统 设计 着 的 目的 吏 是 让 用 户 进 
程 无 法 通过 线性 地 址 推算 出 具体 的 物理 地 址 ， 让 
内 核能 够 访问 用 户 进程 ， 用 户 进程 不 能 访问 其 他 
的 用 户 进程 ， 更 不 能 访问 内 核 。1 MB 以 内 是 内 核 
代码 和 只 有 由 内 核 管控 的 大 部 分 数据 所 在 内 存 空 
间 ， 征 绝对 不 允许 用 户 进程 访问 的 。1 MBE, 
特别 是 主 内 存 区 主要 走 用 户 进程 的 代码 、 数 据 所 
在 内 存 空间 ， 所 以 采用 专 | ] 用 来 窒 理 用 户 进 程 的 
分 页 管理 方法 ， 这 套 方 法 当然 不 能 用 在 内 核 上 。 
详细 内 容 请 看 第 6 章 中 的 内 存 管理 ， 深 层次 原因 的 
分 析 请 看 第 9 章 。 


2.5 ” 异 间 处 理 拓 中 断 服 务 程序 挂 接 


不 论 是 用 户 进程 还 是 系统 内 核 都 要 经 常 使 用 
中 断 或 遇 到 很 多 异 第 情况 需要 处 理 ， 如 CPU 在 参 
习 运 算 过 程 中 ， 可 能 会 多 到 除 委 错误 、 汶 出 错 
误 、 边 界 检查 错误 、 缺 页 错误 ..…. 免 不 了 需要 “ 腊 
党 处理”。 中 断 技 术 也 是 广泛 使 用 的 ， 系 统 调用 就 
是 利用 中 断 技术 实现 的 。 这 些 中 断 、 异 常 都 需要 
具体 的 服务 程序 来 执行 。trap_init O 函数 将 中 
Bt > RAS SRA ARS RE SID TET TERE, A 
建 中 断 服务 体系 ， 文 持 内 核 、 进 程 在 主机 中 的 运 
算 。 挂 接 的 具体 过 程 及 异常 处 理 类 中 断 服务 程序 
在 IDT 中 所 占用 的 位 置 如 图 2-6 所 示 。 


Ox 0x9FFFF OxFFFFF Ox3FFFFF 0x5FFFFF OxFFFFFF 
| 


将 “异常 中 断 ” 服 务 程序 
挂 接 在 (IDT) 上 


挂 接 后 的 状况 


和 


2-6 ”异种 处 理 类 中 断 服务 程 序 挂 接 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


trap _init () ; 


/代码 路 径 : kernel/traps.c: 

void trap_init (void) 

{ 

int i; 

set_trap gate (0, &divide error) ; V/ 除 零 错 误 
set_trap_gate (1, &debug) ; / 单 步调 试 
set_trap_gate (2, &nmi) ; //* n] RRC PET 

set __system_gate (3, &int3) ; /*int3-5 can be called from all*/ 
set_system_gate (4, S&overflow) ; // 洲 出 

set _system_gate (5, &bounds) ; /边界 检查 错误 
set_trap gate (6, Sinvalid_op) ; /无 效 指令 
set_trap_gate (7, Sdevice_not_available) ; /无 效 设备 
set_trap_gate (8, &double fault) ; // 双 故障 


set_trap gate (9, &coprocessor_segment_overrun) ; // 协 处 理 器 段 


越界 


set_trap gate (10, S&invalid_TSS) ; /无 效 TSS 

set_trap gate (11, Ssegment_not_present) ; // 段 不 存在 
set_trap gate (12, &stack_segment) ; // 栈 异常 

set_trap gate (13, &general_protection) ; // 一 般 性 保护 异常 
set_trap gate (14, &page fault) ; // 缺 页 

set_trap_gate (15, &reserved) ; /保留 

set _trap_gate (16, Scoprocessor_error) ; // 协 处 理 器 错误 


for (i=17; i<48; i++) /都 先 挂 接 好 ， 中 断 服务 程序 函数 名 初始 
化 为 保留 


set _trap_gate (i, &reserved) ; 

set_trap gate (45, &irq13) ; // 协 处 理 器 

outb_p (inb_p (0x21) &Oxfb, 0x21) ; /人 允许 IRQ2 中 上 断 请 求 
outb (inb_p (0xA1) &o0xdf, 0xA1) ; /人 允许 IRQ2 中 断 请 求 
set _trap_gate (39, &parallel_interrupt) ; // 并 口 

} 

/代码 路 径 : include\asm\system.h: 


#define_set_gate (gate_addr,type,dpl,addr) \ 


_ asm ("movw%%dx，%%ax\n\t"V/ 将 edx 的 低 字 赋值 给 eax 的 低 


tlt 


"movw%0, %%dx\n\t"V/%OXT by 8 A BS SAY BLT A"i" 


"movl%%eax，%1\n\t"V/%1 对 应 第 二 个 冒号 后 的 第 2 行 的 "o" 


"movl%%edx，%2"V/%2 对 应 第 二 个 冒号 后 的 第 3 行 的 "o" 


: V/ 这 个 冒号 后 面 是 和 输出， 下面 冒号 后 面 是 输入 


: "i" ( (short) (0x8000+ (dpl< <13) + (type<<8) ) ) ，V/ 
立即 数 


"o" (* ( (char*) (gate_addr) ) ) ，V 中 断 描述 符 前 4 个 字 玉 的 
地 址 


"o" (* (4+ (char*) (gate_addr) ) ) ，V 中 断 描 述 符 后 4 个 字 节 
的 地 址 


"da" ( (char*) (addr) ) , "a" (0x00080000) ) mn"d" 对 应 
edx, "a" Xt Reax 


#define set_trap_gate (n,addr) \ 


_set_gate (&idt[n], 15, 0, addr) 


这 些 代 码 的 目的 就 是 要 拼 出 第 1 章 1.3.5 太 讲述 
过 的 中 断 描 述 符 。 为 了 便于 阅读 ， 复 制 在 下 面 ， 
如 图 2-7 所 示 。 


2-7 PDT TILT 


上 述 代 和 码 的 执行 效 末 如 图 2-8 所 示 。 


中 断 服 务 程序 


CPU 
divide_error (void) 
addr 
debug (void) 
addr _ 
| 
addr 


_ 


gate_addr 一 一 一 一 idt[2] 
gate_addr 一 一 一 idt[3] 
gate_addr —__—_ idt[4] 


gate_addr —~W jdt[0] &divide_error | | | 
int3 (void) 
iis ini addr ae | 
. | | 
| overflow (void) 


忽略 GDT 


2-8 ”代码 执行 效 末 示 意图 
对 比 : 
set_trap_gate (0, &divide error) 
set_trap_gate (n,addr) 


_set_gate (&idt[n], 15, 0, addr) 


_set_gate (gate_addr,type,dpl,addr) 


可 以 看 出 ，n 是 0;，gate_addr 是 区 idt[0]， 也 就 
是 idt 的 第 一 项 中 断 摘 述 符 的 地 址 ; type 是 15; dpl 
(描述 符 特权 级 ) 是 0; addr 是 中 断 服 务 程序 
divide_error (void) 的 入 口 地 址 ， 如 图 2-9 所 示 。 


set trap gate(0, &divide error) 
set trap gate(n, addr) 
_set_gate(&idt[n], 15, 0, addr) 


_set gate(gate addr, type, dpl, addr) 


2-9 ”人 参数 对 应 示意 图 


“movw%%dx，%%ax\n\t” 是 把 edx 的 低 字 赋值 
给 eax 鸭 低 字 : edx 是 (char*) (addr) ， 也 就 是 
& divide_error; eax 的 值 是 0x00080000， 这 个 数据 


在 head.s 中 就 提 到 过 ，8 应 该 看 成 1000， 每 一 位 都 
意义 ， 这 样 eax 的 值 束 是 0x00080000+ ( (char 
*) (addr) 的 低 字 ) ， 其 中 的 0x0008 是 段 选 择 
含义 与 第 1 革 中 讲解 过 的 “jmpi 0，8” 中 的 8 一 
致 。 


"movw%0，%%dx\n\t” 是 把 (short) 
(0x8000+ (dpl< <13) + (type< <8) ) 赋值 给 
dx ° FIRS, edx#t (char*) (addr) ， 也 就 是 多 


divide_error ° 


因为 这 部 分 数据 是 按 位 拼接 的 ， 必 须 计算 精 
确 ， 我 们 耐心 详细 计算 一 下 : 


0x8000 就 是 二 进 制 的 1000 0000 0000 0000; 


dpl 是 00，dpl< <13 就 是 000 0000 0000 
0000; 


type 是 15，type< <8 就 是 1111 0000 0000; 


加 起 来 就 是 1000 1111 0000 0000， 这 就 是 dx 的 
值 。edx 的 计算 结果 就 是 (char *) (addr) 的 高 字 
即 &zdivide_error 的 高 字 +1000 1111 0000 0000 ° 


"movl%%eax，%1n\t* 是 把 eax 的 值 赋 给 * 

( (char*) (gate_addr) ) ， 就 是 赋 给 idt[0] 的 前 
4 字 节 。 同 理 ，"movl9%9%edx，9%2? 是 把 edx 的 值 赋 
给 * (4+ (char*) (gate_addr) ) , MEIRA 
idt[0] 的 前 后 4 字 世 。8 字 玫 合 起 来 吏 定 完整 的 


idt[0]。 拼接 的 效果 如 图 2-10 所 示 。 


IDT 中 的 第 一 项 除 夫 错误 中 断 描述 符 初 始 化 完 
毕 ， 其 余 异 各 处 理 服 务 程序 的 中 断 描 述 符 初 始 化 
过 程 大 同 小 异 。 后 续 介 绍 的 所 有 中 断 服 务 程 序 与 
IDT 的 初始 化 基本 上 痢 生 以 这 种 方式 进行 的 。 


set_system_gate (n,addr) 与 set_trap_gate 
(naddr) 用 的 _set_gate (gate_addr,type,dpl,addr) 
是 一 样 的 ， 差 别 是 set_trap_gate 的 dpl] 是 0， 而 
set_system_gate 的 dp] 是 3。dpl 为 0 的 意思 是 只 能 
内 核 处 理 ，dpl 为 3 的 意思 是 系统 调用 可 以 由 3 特权 
级 〈 也 就 是 用 户 特权 级 ) 调用 。 


有 关 特 权 级 更 深入 的 内 容 ， 请 参看 《Intel IA- 
32 Architectures Software Developer’s Manual 


Volume 3.pdf) 《可 以 到 Intel 官 方 网 站 下 载 ) 。 


接 下 来 将 IDT 的 int 0x11~-int 0x2F 都 初始 化 ， 
将 IDT 中 对 应 的 指 癌 中 断 服务 程序 的 指针 设置 为 
reserved (保留 ) 。 


设置 协 处 理 侣 的 IDT 项 。 


人 允许 主 8259A 中 断 控制 硕 的 IRQ2、IRQ3 的 中 


设置 并 口 (可 以 接 打 印 机 ) 的 IDT 项 。 


32 位 中 断 服 务 体系 是 为 适应 “被 动 啊 应 "中断 
言 号 机 制 而 建立 的 。 其 等 点 、 扩 术 路 线 是 这 样 
的 : 一 方面 ， 便 件 产 生 信和 号 传达 给 8259A，8259A 
对 信号 进行 初步 处 理 并 视 CPU 执 行情 这 传递 中 断 
言 号 给 CPU; 另 一 方面 ，CPU 如 果 没 有 接收 到 信 
写 ， 束 不 断 地 处 理 正 在 执行 的 程序 ， 如 果 接 收 到 


信号 ， 束 打 断 正在 执行 的 程序 并 通过 IDT 找 到 具体 
的 中 断 服务 程序 ， 让 其 执行 ， 执 行 守 后， 返回 刚 
才 打 断 的 程序 点 继续 执行 。 如 条 又 接收 到 中 断 信 
F, MAKERE... 


0x8000: 1000 0000 0000 0000 
dpl << 13: 000 0000 0000 0000 
type << 8: 1111 0000 0000 


1000 1111 0000 0000 


8 7 


—— edx 
00000 0 4 


"movw %0,%%dx\n\t" 
"i" ((short) (Ox8000+ 
(dpl<<13)+(type<<8))) 5 


3 段 选择 符 〈SELE|CTOR) 0x0008 2 
3QX 
1 (char*) (addr) W&d | ivide_error MRE 0 
15 8 7 0 
7 ivi 高 字 6 
"d" ((char +) (addr)) (char*) (addr) 即 &d ， sa 
movi 0700X, /0. 


"o" (*(4+(char *) 
1/0 0;0'1 1211/0 00/0 0 0 0 O| 4 (gate_addr))) 
| 
段 选择 符 (SELE |CTOR) 0x0008 2 
"movl %%eax,%1 


movw %%dx,%%ax\n\t ‘ Sab Sea ) 
1 (char#) (addr) 即 &d jivide error 的 低 字 0 we 


"a" (0x00080000)) 


2-10 RRA 


最 原始 的 设计 不 是 这 样 ， 那 时 候 CPU 每 隔 一 
段 时 间 吏 要 对 所 有 硬件 进行 轮 询 ， 以 检测 它 的 工 
EERE, WRA ERMAR, AE 
消耗 了 CPU 处 理 用 户 程序 的 时 间 ， 降 低 了 系统 的 
综合 效率 。 可 见 ，CPU 以 “主动 轮 询 ” 的 方式 来 处 
理 信 与 是 非常 不 划算 的 。 以 “被 动 啊 应 ”模式 礁 
代 “ 主 动 轮 询 ” 模 式 来 处 理 主机 与 外 设 的 VO 问题 ， 
征 计 算 机 历史 上 的 一 六 进步 。 


2.6 初始 化 块 设备 请 求 项 结构 


Linux 0.11 将 外 设 分 为 两 类 : 一 类 是 块 设备 ， 

为 一 类 是 字符 设备 。 块 设备 将 存储 空间 等 分 为 右 

干 同样 大 小 的 称 为 块 的 小 存储 空间 ， 每 个 块 有 块 

写 ， 可 以 独立 、 随 机 读 写 。 硬 盘 、 软 盘 都 是 块 设 

备 。 字 符 设 备 以 字符 为 单位 进行 JO 通 信 。 键 盘 、 
字 


进程 要 想 与 块 设备 进行 沟通 ， 必 须 经 过 主机 
内 存 中 的 缓 钟 区 。 请 求 项 管理 结构 request[32] 残 是 
操作 系统 管理 缓冲 区 中 的 缓 神 块 与 块 设备 上 导 辑 
块 之 间 读 写 关 系 的 数据 结构 。 


请 求 项 在 进程 与 块 设备 进行 WO 通信 的 总 体 天 
系 如 图 2-11 所 示 。 


操作 系统 根据 所 有 进程 读 写 任务 的 轻重 组 
急 ， 决 定 缓冲 块 与 块 设备 之 间 的 谈 写 操作 ， 并 把 
需要 操作 的 缓冲 块 记录 在 请 求 项 上 ， 得 到 读 写 块 
设备 操作 指令 后 ， 只 根据 请 求 项 中 的 记录 来 决 定 


当前 需要 处 理 哪个 设备 的 哪个 逻辑 块 。 


NN 控制 
”数据 进程 。 “进程 。 ”| 进程 R “进程 
缓冲 区 | | | | 
. ge i \ 
请 求 项 ee | \ 
= 日 
im 
软盘 软盘 2 硬盘 


图 2-11 总 体 关 系 示 意图 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


#define NR_REQUEST 32 
struct request { 

int dev; /*-1 if no request*/ 

int cmd; /*READ or WRITE*/ 
int errors; 


unsigned long sector; 


unsigned long nr_sectors; 
char * buffer; 

struct task_struct * waiting; 
struct buffer_head * bh; 


struct request * next; /说 明 request 可 以 构成 链表 


void blk_dev_init (void) 

{ 

int i; 

for (i=0; i<NR REQUEST; i++) { 
request[i].dev=-1; // 设 置 为 空闲 


request[i].next=NULL; // 互 不 挂 接 


注意 : request[32] 是 一 个 由 数组 构成 的 链表 ; 
request[i].dev=-1 说 明了 这 个 请 求 项 还 没有 具体 对 
应 哪个 设备 ， 这 个 标志 将 来 会 被 用 来 判断 对 应 该 
请 求 项 的 当前 设备 是 否 空闲 ; 
request[i].next=NULL 说 明 这 时 还 没有 形成 请 求 项 
队列 。 和 初始化 的 过 程 和 效果 如 图 2-12 所 示 。 


ane Ox9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 


o 


B 将 spend -项 的 


ARREK “内 六 数据 区 “设备 号 "和 “下 一 项 
: _ mer” PAIMEN “17 


-} NULL -1 NULL -1 NULL 一 NULL 


对 块 设 备 request[32] 进行 初始 化 设置 初始 化 后 
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2-12 ”初始 化 块 设备 请 求 项 结构 


2.7 与 建 六 人 机 交互 界面 相关 的 外 设 
HN) FB DBT A SS BP FE 


Linus ERRE ACRES FART T 
chr_dev_init () Kt, H TEZA AAKA 
化 字符 设备 ， 但 我 们 可 以 看 到 这 十 一 个 空子 数 。 
Linus 又 设计 了 tty_init O Kt, ARDERE 


字符 设备 。 有 人 解释 tty 十 teletype。 


字符 设备 的 初始 化 为 进程 与 串 行 口 (可 以 通 
信 、 连 接 鼠 标 .……) > 显示器 以 及 键盘 进行 O 通 
信 准 备 工 作 环境 ， 主 要 是 对 串 行 口 、 显 示 器 、 键 
盘 进 行 初始 化 设置 ， 以 及 与 此 相关 的 中 断 服务 程 
序 与 IDT 挂 接 。 在 tty_init O 画 数 中 ， 先 调用 


rs_init () 函数 来 设置 串 行 口 ， 再 调用 con_init 
O 函数 来 设置 显示 器 ， 具 体 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


/代码 路 径 : kermel/chr_dev/tty_io.c: 
void tty_init (void) 

{ 

rs _init () ; 

con _init () 


} 


2.7.1 对 串 行 口 进 行 设置 


把 两 个 串 行 口中 断 服 务 程序 与 IDT 相 挂 接 ， 
然后 根据 tty_table 数 据 结构 中 的 内 容 对 这 两 个 串 行 
口 进 行 初 始 化 设置 ， 包 括 设 置 线路 控制 寄存 厚 的 
DLAB 位 、 设 置 发 远 的 波 特 率 因 于、 设置 DTR 和 
RTS...... 最 后 ， 人 允许 主 8259A 忌 片 的 [RQ3 和 IRQ4 
发 送 中 断 请 求 。 


挂 授 的 具体 过 程 及 挂 授 后 的 效果 如 图 2-13 所 
= 


执行 代码 如 下 : 


/代码 路 径 : kernel/chr_dev/serial.c: 
voidrs init (void) 


{ 


set_intr_gate (0x24, rsl_interrupt) ; /设置 串 行 口 1 中 断 ， 人 参看 
2.5 


set_intr_gate (0x23, rs2_interrupt) ; /设置 串 行 口 2 中 晰 
init (tty_table[1].read_q.data) ; /初始 化 串 行 口 1 
init (tty_table[2].read_q.data) ; /初始 化 串 行 口 2 
outb (inb_p (0x21) &0xE7, 0x21) ; /人 允许 IRQ3，IRQ4 


} 


两 个 串 行 口中 断 处 理 程 序 与 IDT 的 挂 接 函 数 
set_intr_gate () 与 2.5 中 介绍 过 的 set_trap_gate 
O 函数 类 似 ， 可 参看 前 面 对 set_trap_gate () & 
数 的 讲解 。 它 们 的 差别 是 set_trap_gate O 函数 的 
type 是 15 (二 进 制 的 1111) ， 而 set_intr_gate () 
的 type 是 14 (二 进 制 的 1110) ° 


pouema ai ge wht : ‘tty_table[ 1].read q.data 
PE T TT R.. 


i 


囊 行 口 设置 前 ` 


图 2-13 RATA TARA TEP TE Re 


根据 机 器 系统 数据 提供 的 显卡 是 “音色 ”下 
定 “ 彩 色 ?” 来 议 置 配套 信息 。 由 于 在 Linux 0.11 那 个 
时 代 ， 大 部 分 显卡 妖 是 单 色 的 ， 所 以 我 们 假设 显 
卡 的 属性 是 单 色 EGA。 那 么 显存 的 位 置 就 要 被 设 
置 为 0xb0000~0xb8000， 索 引 寄 存 器 端口 被 设置 
为 0x3b4， 数 据 寄 存 磺 病 口 被 设置 为 0x3b5， 再 将 
显卡 的 属性 一 一 EGA 这 三 个 字符 ， 显 示 在 屏幕 
上 。 另 外 ， 再 初始 化 一 些 用 于 滚屏 的 变量 ， 其 中 

包括 滚屏 的 起 始 显存 地 址 、 滚 屏 结 束 显 存 地 址 、 

ay [mt t Ss DAR ae in tT o OR AO A2-14 AT 


外 
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图 2-14 显示 器 设置 


2.7.3 对 键盘 进行 设置 


对 键盘 进行 设置 是 先 将 键盘 中 断 服务 程 序 与 
IDT 相 挂 接 ， 然 后 取消 8259A 中 对 键盘 中 断 的 屏 
刷 ， 人 允许 IRQ1 发 运 中 断 信 号 ， 通 过 先 花 止 键 弄 工 
(E> FORT HERE LE, PERE REMOTE T° ER 
中 断 处 理 程 序 与 IDT 的 挂 接 函数 set_intr_gate () 
与 前 面 讲解 过 的 set_trap_gate () HARM, BS 
对 set_trap_gate O ERALAIEAR ° 


效果 如 图 2-15 所 示 。 


第 一 步 
将 键 手 中 断 服 务 程序 


挂 接 在 (IDT) 上 键盘 设置 后 
键盘 设置 前 
gts sail al y 
:4 
ei i 


图 2-15 键盘 设置 


执行 代码 如 下 : 


// 代 码 路 径 : kernel/chr_dev/console.c: 
#define ORIG_X (* (unsigned char *) 0x90000) 


#define ORIG_Y (* (unsigned char *) 0x90001) 


#define ORIG_VIDEO_PAGE (* (unsigned short *) 0x90004) 


#define ORIG_VIDEO_ MODE ( (* (unsigned short *) 0x90006) 
& Oxff) 


#define ORIG_VIDEO_COLS ( ( (* (unsigned short *) 
0x90006) &Oxff00) >>8) 


#define ORIG_VIDEO_LINES (25) 

#define ORIG_VIDEO_EGA_AX (* (unsigned short *) 0x90008) 
#define ORIG_VIDEO EGA BX (* (unsigned short *) 0x9000a) 
#define ORIG_VIDEO EGA CX (* (unsigned short *) 0x9000c) 
#define VIDEO_TYPE_MDA 0x10/*Monochrome Text Display*/ 
#define VIDEO_TYPE_CGA 0x11/*CGA Display*/ 


#define VIDEO_TYPE_EGAM 0x20/*EGA/VGA in Monochrome 
Mode*/ 


#define VIDEO_TYPE_EGAC 0x21/*EGA/VGA in Color Mode*/ 
#define NPAR 16 


void con_init (void) 


register unsigned char a; 


char * display_desc="????"; 

char * display_ptr; 

video _num_columns=ORIG_VIDEO_COLS; /参看 机 器 系统 数据 
video _size_row=video_num_columns*2; 

video _num_lines=ORIG_VIDEO_LINES; 

video _page=ORIG_VIDEO_ PAGE; /参看 机 器 系统 数据 

video _erase_char=0x0720; 

if (ORIG_VIDEO_MODE==7) /*Is this a monochrome display?*/ 
{ 

video _mem_start=0xb0000; 

video _port_reg=0x3b4; 

video _port_val=0x3b5; 


if ( (ORIG_VIDEO EGA BX&Oxff) ! =0x10) /参看 机 器 系统 
W 
数据 


video _type=VIDEO_TYPE_EGAM;; 


video _mem_end=0xb8000; 


display _desc="EGAm"; 


else 


video _type=VIDEO_TYPE_MDA; 
video _mem_end=0xb2000; 
display _desc="*MDA"; 


} 


else/*If not,it is color.*/ 


video _mem_start=0xb8000; 
video _port_reg=0x3d4; 
video _port_val=0x3d5; 


if ( (ORIG VIDEO EGA BX&Oxff) ! =0x10) /参看 机 器 系统 
W 
数据 


video _type=VIDEO_TYPE_EGAC; 
video _mem_end=0xbc000; 


display _desc="EGAc"; 


else 


video _type=VIDEO_TYPE_CGA; 
video _mem_end=0xba000; 
display _desc="*CGA"; 


} 


/*Let the user known what kind of display driver we are using*/ 
display _ptr= ( (char *) video_mem_start) +video_size_row-8; 


while (*display_desc) 


*display_ptr++=*display_desc++; 


display _ptr++; 


} 

/*Tnitialize the variables used for scrolling (mostly EGA/VGA) */ 
origin=video_mem_start; 

scr _end=video_mem_start+video_num_lines * video_size_row; 
top=0; 

bottom=video_num_lines; 

gotoxy (ORIG_X,ORIG_Y) ; /参看 机 器 系统 数据 


set _trap_gate (0x21, Sckeyboard_interrupt) ; /设置 键盘 中 断 ， 
SA25 


outb_p (inb_p (0x21) &0xfd, 0x21) ; /取消 对 键盘 中 断 的 屏 
菩 ， 人 允许 IRQ1 


a=inb_p (0x61) ; 
outb _p (al0x80, 0x61) ; /禁止 键盘 工作 


outb (a, 0x61) ; /再 允许 键盘 工作 


2.8 ”开机 局 动 时间 设 置 


开机 局 动 时 间 是 大 部 分 与 时 间 相关 的 计算 的 
基础 。 操 作 系统 中 一 些 程序 的 运算 需要 时 间 参 
效 ; 很 多 事务 的 处 理 也 都 要 用 到 时 间 ， 比 如 文件 
修改 的 时 间 、 文 件 最 近 访 问 的 时 间 、i 节 所 目 身 的 
修改 时 间 等 。 有 了 开机 局 动 时 间 ， 其 他 时 间 束 可 
据 此 推算 出 来 。 


具体 执行 步骤 是 : CMOS 是 主板 上 的 一 个 小 
存储 芯 厂 ， 系 统 通过 调用 time_init () KZ, J 
对 它 上 面 记 了 的 时 间 数 据 进 行 采集 ， 提 取 不 同等 
级 的 时 间 要 素 ， 比 如 秒 (time.tm_sec) 、 分 


(time.tm_min) 、 年 (timetm_year) 等 ， 然 后 对 


这 些 要 素 进 行 整合 ， 并 最 终 得 出 开机 局 动 时 间 


(startup time) ° 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


ee ee 


#define CMOS READ (addr) (〈{W 读 CMOS 实 时 时 钟 信 息 


outb _p (0x80|addr, 0x70) ; V/0x80|addr 读 CMOS 地 址 ，0x70 写 
端口 


inb_p (0x71) ; V/0x71 读 端口 


È 


#define BCD_TO_BIN (val) ( (wal) = ( (wal) &15) + 
( (val) > >4) *10) /十 进 制 转 二 进 制 


static void time init (void) 


struct tm time; 

do{ 

time.tm_sec=CMOS_READ (0) ; // 当 前 时 间 的 秒 值 ， 以 下 类 推 
time.tm_min=CMOS_READ (2) ; 
time.tm_hour=CMOS_READ (4) ; 
time.tm_mday=CMOS_READ (7) ; 
time.tm_mon=CMOS_READ (8) ; 
time.tm_year=CMOS_READ (9) ; 

}while (time.tm sec! =CMOS READ (0) ) ; 
BCD _TO_BIN (time.tm_sec) ; 

BCD _TO_BIN (time.tm_min) ; 

BCD _TO_BIN (time.tm_hour) ; 


BCD _TO_BIN (time.tm_mday) ; 


BCD_TO BIN (time.tm mon) ; 
BCD _TO_BIN (time.tm year) ; 


time.tm_mon--; 


startup _time=kernel_mktime (&time) ; /开机 时 间 ， 从 1970 年 1 


月 1 日 0 时 计算 


} 

/代码 路 径 : include\asm\io.h: //fk AI_9a Btrap_inith JERE 
#define outb_p (value,port) V/ 将 value 写 到 port 

_asm ("outb%%al, %%dx\n"\ 

"\timp 1fn"Vjmp 到 下 面 的 第 一 个 1: 处 ， 目 的 是 延迟 

"1: \tjmp 1f\n"\ 

"1: ": "a" (value) , "d" (port) ) 

#define inb_p (port) ({\ 

unsigned char_v; \ 


__asm__volatile ("inb%%dx，%%al\n"V/volatile， 禁 止 编译 器 优化 


下 列 代码 


"tjmp 1f\n"V/ 延 迟 


"1: \tjmp 1f\n"\ 


计算 过 程 及 开机 启动 时 间 在 内 存 中 的 存储 位 
置 如 图 2-16 所 示 。 
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图 2-16 开机 局 动 时 间 设 置 


2.9 初始 化 进程 0 


进程 0 是 Linux 损 作 系 统 中 运行 的 第 一 个 进 
往 ， 也 走 Linux 操 作 系统 父子 进程 创建 机 制 的 第 一 
个 父 进程 。 下 面 讲解 的 内 容 对 进程 0 能 够 在 主机 中 
正 季 运算 的 影响 最 为 重要 和 深远 ， 主 要 包含 如 下 
三 方面 的 内 容 。 


1) 系统 先 初 始 化 进程 0。 进 程 0 管理 结构 
task_struct 的 母 本 (init_task={INIT_TASK, } 已 
经 在 代码 设计 阶段 事先 设计 好 了 ， 但 这 并 不 代表 
进程 0 已 经 可 用 了 ， 还 要 将 进程 0 的 task_struct 中 的 
LDT、TSS 与 GDT 相 桂 接 ， 并 对 GDT ` task[64] 以 
及 与 进程 调度 相关 的 寄存 器 进行 初始 化 设置 。 


sail 


2) Linux 0.11 作 为 一 个 现代 操作 系统 ， 其 
重要 的 标志 束 是 能 够 文 择 多 进程 纶 流 执 行 ， 这 
求 进程 具备 参与 多 进程 轮 询 的 能 力 。 系 统 这 里 对 
时 钟 中 断 进 行 设置 ， 以 便 在 进程 0 运行 后 ， 为 进程 
0 以 及 后 续 由 筷 直 接 、 间 接 创 建 出 来 的 进程 能 够 参 
与 轮转 莫 定 基础 。 


烟 


3) 进程 0 要 具备 处 理 系 统 调 用 的 能 力 。 每 个 
进程 在 运算 时 都 可 能 需要 与 内 核 进行 交互 ， 而 交 
互 的 问 口 殉 是 系统 调用 程序 。 系 统 通过 函数 
set_system_gate 将 system_call 与 IDT 相 挂 接 ， 这 样 
进程 0 束 具 备 了 处 理 系统 调用 的 能 力 了。 这 个 
system_call 融 是 系统 调用 的 总 入 口 。 


进程 0 只 有 具备 了 以 上 三 种 能 力 才能 保证 将 来 
在 主机 中 正常 地 运行 ， 并 将 这 些 能 力 遗 传 给 后 续 


建立 的 进程 。 


这 三 点 的 实现 都 是 在 sched_init () FRACS 
现 的 ， 有 具体 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


union task_union{//task_struct 与 内 核 栈 的 共用 体 


struct task_struct task; 
char stack[PAGE. SIZE]; //PAGE_SIZE@4 KB 
}; 


static union task_union init_task={INIT_TASK, }; /进程 0 的 
task_struct 


/初始 化 进程 模 task[NR_TASKS] 的 第 一 项 为 进程 0， 即 task[0] 为 进 
程 0 占用 


struct task struct * task[NR_TASKS]={& (init_task.task) , }; 


void sched_init (void) 


int i; 

struct desc_struct * p; 

if (sizeof (struct sigaction) ! =16) 

panic ("Struct sigaction MUST be 16 bytes") ; 


set_tss_desc (gdttFIRST_TSS_ENTRY, & 
(init_task.task.tss) ) ; /设置 TSS0 


set_Idt_desc (gdttFIRST_LDT_ENTRY, & 


(init_task.task.ldt) ) ; /iX#LDTO 


p=gdt+2+FIRST_TSS_ENTRY; /从 GDT 的 6 项 ， 即 TSS1 开 始 向 上 


全 部 清 零 ， 并 且 将 进程 槽 从 


for (i=1; i<NR_TASKS; i++) {/W1 往 后 的 项 清空 。0 项 为 进程 0 所 


用 

task[iJ=NULL; 

p- > a=p- > b=0; 

pt+; 

p- > a=p- > b=0; 

pt+; 

} 

/*Clear NT,so that we won't have troubles with that later on*/ 

_asm ("pushfl; andl$Oxffffbfff, (%esp) ; popfl") ; 

ltr (0) ; /重要 ! 将 TSS 挂 接 到 TR 寄存 器 

ldt (0) ; /重要 ! 将 LDT 挂 接 到 LDTR 寄 存 器 

outb _p (0x36, 0x43) ; /*binary,mode 3, LSB/MSB,ch 0*/// 设 置 
定时 器 


outb p (LATCH&Oxff, 0x40) ; /LSB*W/ 每 10 毫 秒 一 次 时 钟 中 断 


outb (LATCH> >8, 0x40) ; /*MSB*/ 


set _intr_gate (0x20, S&timer_interrupt) ; /重要 ! 设置 时 钟 中 
BT, FEVER E 


outb (inb_p (0x21) &~0x01, 0x21) ; /人 允许 时 钟 中 断 


set _system_gate (0x80, S&system_call) ; /重要 ! 设置 系统 调用 
总 入 口 


} 
/代码 路 径 : include\linux\sched.h: /嵌入 汇编 参看 trap_init 的 注释 


#define FIRST_ TSS_ENTRY 4// 参 看 图 2-15 中 GDT 的 4 项 ， 即 TSS0 入 
口 


#define FIRST LDT ENTRY (FIRST TSS ENTRY+1) // 同 上 , 5 
项 即 LDT0 入 口 


#define_ TSS (n) ( ( ( (unsignedlong) n) <<4) + 
(FIRST_TSS_ ENTRY < <3) ) 


#define LDT (n) ( ( ( (unsigned long) n) <<4) + 
(FIRST_LDT_ENTRY < <3) ) 


#define ltr (n) asm ("ltr%%ax": "a" ( TSS (n) ) ) 


#define lldt (n) asm ("Ildt%%ax": "a" (LDT (n) ) ) 


/代码 路 径 : include\asm\system.h: 
#define set_intr_gate (n,addr) \ 

_set_gate (Sidt[n], 14, 0, addr) 
#define set_trap_gate (n,addr) \ 

_set_gate (Sidt[n], 15, 0, addr) 
#define set_system_gate (n,addr) \ 
_set_gate (Sidt[n], 15, 3, addr) 


#define_set_tssldt_desc (n,addr,type) VRAC mÆ trap_inithy/+ 
asm (movw$104，%lnt"V 将 104， 即 1101000 存 入 描述 符 的 

"movw9%69%6ax，9%62Nnt"V/ 将 tss 或 ldt 基 地 址 的 低 16 位 存 入 描述 符 的 第 
3、4 字 节 


"rorl$16，%%eax\n\t"V/ 循 环 右 移 16 位 ， 即 高 、 低 字 互 换 


"movb9%69%al，9%3Nxt"V/ 将 互 换 完 的 第 1 字 节 ， 即 地 址 的 第 3 字 克 存 
入 第 5 字 节 


一 


"movb$"type"，%4\n\t"V/ 将 0x89 或 0x82 存 入 第 6 字 廊 


"movb$0x00，%5NNt"V/ 将 0x00 存 入 


2 
it 
十 


"movb%%ah，%6n\t"V/ 将 互 换 完 的 第 2 字 方 ， 即 地 址 的 第 4 字 方 存 
入 第 8 字 节 


"rorl$16，%%eax"V/ 复 原 eax 


an (addr) , "m" (* (n) ) , "m" (* (nt2) ) , "m" te 
(n+4) ) , \ 


"m" (* (n+5) ) , "m" (* (n+6) ) , "m" (* (n+7) ) \ 
I"m" (* (n) ) 是 gdt 第 n 项 描述 符 的 地 址 开始 的 内 存单 元 


fm" (* (n+2) ) 十 gdt 第 n 项 描述 符 的 地 址 向 上 第 3 字 市 开始 的 内 
存单 元 


// 其 余 依 此 类 推 
) 


//m: gdt 的 项 值 ，addr: tss 或 ldt 的 地 址 ，0x89 对 Rtss，0x82 对 应 ldt 


#define set tss desc (n,addr) _set_tssldt_desc ( ( (char *) 
(n) ) , addr, "0x89") 


#define set_Idt_desc (n,addr) _set_tssldt_desc ( ( (char *) 
(n) ) , addr, "0x82") 


/代码 路 径 : include/linux/sched.h: 


struct tss_struct{ 


long back_link; /*16 high bits zero*/ 
long esp0; 

long ssO; /*16 high bits zero*/ 
long esp1; 

long ssi; /*16 high bits zero*/ 
long esp2; 

long ss2; /*16 high bits zero*/ 
long cr3; 

long eip; 

long eflags; 

long eax,ecx,edx,ebx; 

long esp; 

long ebp; 

long esi; 

long edi; 

long es; /*16 high bits zero*/ 


long cs; /*16 high bits zero*/ 


long ss; /*16 high bits zero*/ 

long ds; /*16 high bits zero*/ 

long fs; /*16 high bits zero*/ 

long gs; /*16 high bits zero*/ 

long ldt; /*16 high bits zero*/ 

long trace_bitmap; /*bits: trace 0, bitmap 16-31*/ 
struct i387_struct 1387; 

i 

struct task_struct{ 

/*these are hardcoded-don't touch*/ 

long state; /*-1 unrunnable, Orunnable, > 0 stopped*/ 
long counter; 

long priority; 

long signal; 

struct sigaction sigaction[32]; 

long blocked; /*bitmap of masked signals*/ 


/*various fields*/ 


int exit_code; 

unsigned long start_code,end_code,end_data,brk,start_stack; 
long pid,father,pgrp,session, leader; 
unsigned short uid,euid,suid; 

unsigned short gid,egid,sgid; 

long alarm; 

long utime,stime,cutime,cstime,start_time; 
unsigned short used_math; 

/*file system info*/ 

int tty; /*-1 if no tty,so it must be signed*/ 
unsigned short umask; 

struct m_inode * pwd; 

struct m_inode * root; 

struct m_inode * executable; 

unsigned long close_on_exec; 

struct file * filp[NR_OPEN]; 


/*|dt for this task 0-zero 1-cs 2-ds&ss*/ 


struct desc_struct Idt[3]; 

/*tss for this task*/ 

struct tss_struct tss; 

Fa 

/#j 进 程 0 的 task_struct 

*INIT_TASK is used to set up the first task table,touch at 
*your own risk! .Base=0, limit=Ox9ffff (=640kB) 
*/ 

#define INIT_TASK\ 

/*state etc*/{0, 15, 15, VÆ ®, 156E] 
/*signals*/0, {{}, }, 0, \ 

/*ec,brk...... */0, 0, 0, 0, 0, 0, \ 

/*pid etc..*/0，-1，0，0，0，V/ 进 程 号 0 

/*uid etc*/0, 0, 0, 0, 0, 0, \ 

/*alarm*/0, 0, 0, 0, 0, 0, \ 

/*math*/0, \ 


/*fs info*/-1, 0022, NULL,NULL,NULL, 0, \ 


/*filp*/{NULL, }, \ 

{\ 

{0, O}, \ 

/*\dt*/{Ox9f, OxcOfa00}, \ 
{Ox9f, OxcOf200}, \ 

h \ 


/*tss*/{0, PAGE_SIZE+ (long) &init task, 0x10, 0, 0, 0, O, 
(long) &pg dir, \ 


0，0，0，0，0，0，0，0，V/efags 的 值 ， 决 定 了 di 这 类 指令 只 能 
在 0 特权 级 使 用 


0, 0, 0x17, 0x17, 0x17, 0x17, 0x17, 0x17, \ 
_LDT (0) , 0x80000000, \ 


{}\ 


2.9.1 ”初始 化 进程 0 


sched_init 函 数 比 较 难 理解 的 是 下 面 两 行 : 


set _tss_desc (gdttFIRST_TSS_ENTRY, & 
(init_task.task.tss) ) ; 


set_Idt_desc (gdttFIRST_LDT_ENTRY, & 
(init_task.task.Idt) ) ; 


IPN TESA BA ee RA 2-17 SSM BB 
样 在 GDT 中 初始 化 进程 0 所 占 的 4、5 两 项 ， 即 初始 
化 TSS0 和 LDT0 ° 


GDT 


进程 0 的 LDT 
进程 2 
进程 0 的 TSS 
进程 段 描述 符 long Beek? k 
段 限 长 104B long esp0; 
long ss0; 
0 特权 级 long espl; 
long ssl; 
| long esp2; 
进 程 0 RGB long ss2; 
段 描述 符 long cr3; 
long eip; 
long eflag 
段 限 长 104B long eax, dx, ebx; 
long esp; 
0 特权 级 long ebp; 
内 核 long esi; 
long edi; 
long es; 
long cs; 
long 88; 
GDT long ds; 
long fs; 
long gs; 
long ldt; 
long trace_bitmap; 


2-17 GDT、LDT、TSS 关 系 示 意图 


另外 ， 要 拼 出 图 2-18 所 示 的 结构 。 我 们 以 
TSS0 为 例 ， 参 看 涯 代码 中 的 注释 ， 可 以 绘 出 图 2- 
19。LDT0 类 似 。 


段 描述 符 保留 


D A 
基地 址 31:24 G /0 YI| 段 限 长 19:16 
B I 
D 
P| P |S 类 型 基地 址 23:16 
L 
基地 址 15:0 
段 限 长 15:0 


图 2-18 ”上段 描述 符 结构 图 


对 比 源 人 代码、 注释 和 图 ， 可 以 看 出 ， 
movw$104，%1 是 将 104 赋 给 了 段 限 长 15: 0 的 部 
分 ; 粒度 G 为 0， 说 明 限 长 融 是 104 字 闻 ， 而 TSS 除 
去 struct i387_struct i1387 后 长 度 正好 是 104 字 六。 
LDT 是 3x8=24 字 方 ， 所 以 104 字 市 限 长 够 用 。TSS 
的 类 型 是 0x89， 即 二 进 制 的 10001001， 可 以 看 出 
movb$"type"，9%4 在 给 type 赋 值 1001 的 同时 ， 顺 便 


将 P、DPL、S 字 上 段 都 赋值 好 了 。 同 理 ， 
movb$0x00，%5 在 给 段 限 长 19: 16 部 分 赋值 0000 
的 同时 ， 顺 便 将 G、D/B、 保 留 、AVL 字 上段 都 赋值 
好 了 。 


movb %%ah, %6 — | TSS 的 基地 址 31:24 0 0 0 0.0 0 0 0| 一 movb $0x00, %5 
movb $"type",%4 — | 1/0 010 1 0 0 1 TSS 的 基地 址 23:16 | 一 Iori con 

movw %%ax, %2 — TSS 的 基地 址 15:0 

movw $104,%1 —|0 0 00000001101000 


2-19 TSS0 结 构图 


进程 0 的 task_struct 是 由 操作 系统 设计 者 事先 
写 好 的 ， 束 是 sched.h 中 的 INIT_TASK (参看 上 面 
相关 源 代码 和 注释 ， 其 结构 示意 见 图 2-20) ， 并 
用 INIT_TASK 的 指针 初始 化 task[64] 的 0 项 。 


union task_union 
struct task_struct ta 
char stack[PAGE_ St taek 


a 


stack (4 KB, 正好 一 页 ) 


init task 
(task_union) 


(956 B) 


INIT_TASK 指 针 
这 个 栈 是 内 核 代码 使 用 的 ， 
ENORENN., 
压 栈 绝对 不 会 路 盖 task_struct 


2-20 ”task_union 结 构 示意 图 


sched_init () 范 数 接 下 来 用 for 循 环 将 task[64] 
除 进程 0 占用 的 0 项 外 的 其 余 63 项 消 空 ， 同 时 将 
GDT 的 TSS1、LDT1 往 上 的 所 有 表 项 清 零 ， 歼 果 如 
图 2-21 所 示 。 


初始 化 进程 0 相关 的 管理 结构 的 最 后 一 步 是 非 
钊 重要 的 一 步 ， 是 将 TR 寄 存 右 指 铝 TSSO0、LDTR 
寄存 絮 指 癌 LDT0， 这 样 ，CPU 束 能 通过 TR ` 


LDTR 寄 存 器 找到 进程 0 的 TSS0、LDT0， 也 能 找到 
一 切 和 进程 0 相关 的 管理 信息 。 


ae OxOFFFF OxFFFFF Ox3FFFFF OxSFFFFF 


“a a aala a 


Tee ees 
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oseesse 
tetese 
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A AE 第 二 步 :设置 除了 进 
村 Ra 程 0 所 占 位 置 以 外 的 
其 他 位 置 为 室 
第 一 步 :设置 进程 0 的 相关 信息 
task[64] 及 6DT 设 置 后 
task[64] 及 GDT 设 置 前 


..* 
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图 2-21 进程 相关 事务 初始 化 设置 


2.9.2” 议 置 时 钟 中 断 


接 下 来 殉 对 时 名 中 断 进 行 设 置 。 时 名 中 断 是 
进程 0 及 其 他 由 它 创建 的 进程 轮转 的 基础 。 对 时 钟 
中 断 进 行 设置 的 过 程 具体 分 为 如 下 三 个 步 又 。 


1) 对 支持 轮 询 的 8253 定 时 器 进行 设置 。 这 一 
步 操 作 如 图 2-20 中 的 第 一 步 所 示 ， 其 中 LATCH 最 
大 键 。LATCH 走 通过 一 个 安定 义 时 ， 通 过 它 在 
sched.c 中 的 定义 “#define LATCH 
(1193180/HZ) ”， 即 系统 每 10 毫 秒 发 生 一 次 时 钟 
HT o 


2) 设置 时 钟 中 断 ， 如 图 2-22 中 的 第 二 步 所 
7, timer_interrupt () 函数 挂 接 后 ， 在 发 生 时 钟 


中 断 时 ， 系 统 就 可 以 通过 IDT 找 到 这 个 服务 程序 
来 进行 具体 的 处 理 。 


3) 将 8259A 世 片 中 与 时 钟 中 断 相 关 的 屏蔽 码 
打开 ， 时 钟 中 断 就 可 以 产生 了 。 从 现在 开始 ， 时 
钟 中 断 每 /100 秒 就 产生 一 次 。 由 于 此 时 处 于 “天 
中 断 ” 状 态 ，CPU 并 不 啊 应 ， 但 进程 0 已 经 具备 参 
进程 轮转 的 交 能 。 


2.93 ”设置 系统 调用 总 入 口 


将 系统 调用 处 理 函 数 system_call 与 int 0x80 中 
断 摘 述 符 表 挂 接 。system_call 是 整个 操作 系统 
系统 调用 软 中 断 的 总 入 口 。 所 有 用 户 程序 使 用 系 
统 调 用 ， 产 生 int 0x80 软 中 断后 ， 操 作 系 统 都 是 通 
过 这 个 总 入 口 找到 具体 的 系统 调用 函数 。 该 过 程 
如 图 2-23 所 示 。 


ae eee od 
服务 程序 与 IDT 的 第 ”传递 LATCH 等 数据 


0x20 项 进行 挂 接 第 一 步 :对 时 钟 中 断 进 行 设置 


时 钟 中 断 程序 挂 接 
以 及 8253 设 置 后 


时 钟 中 断 程序 挂 接 
以 及 8253 设 置 前 


主板 


2 


图 2-22 时 钟 中 晰 设置 


OxFFFFFF 


将 系统 调用 服务 程序 zy tem_call 
与 IDT 的 第 0x 80 项 相持 接 系统 调用 函数 加载 后 


ge 66-6 05666 SW SS ST 0666-6. 6..6)-6- 6. 66-6 2 &, 4-8 2 4. 6-6-6. 06-6 


Ie ee ee ee Te ee ee 


图 2-23 系统 调用 服务 程序 挂 接 


系统 调用 函数 是 操作 系统 对 用 户 程序 的 基本 
支持 。 在 操作 系统 中 ， 依 托 硬件 提供 的 特权 级 对 
内 核 进 行 傈 护 ， 不 允许 用 户 进程 直接 访问 内 核 代 
码 。 但 进程 有 大 量 的 像 读 盘 、 创 建 子 进程 之 类 的 
具体 事务 处 理 需要 内 核 代码 的 支持 。 为 了 解决 这 
个 矛盾 ， 操 作 系统 的 设计 者 提供 了 系统 调用 的 解 


决 方案 ， 插 供 一 和 僚 系 统 服务 接口 。 用 户 进 程 只 
想 和 内 核 打 交道 ， 驳 调用 这 套 接 口 程 序 ， 之 后 ， 
束 会 立即 引发 int 0x80 软 中 断 ， 后 面 的 事情 残 不 需 
要 用 户 程序 管 了 ， 而 是 通过 另 一 条 执行 路 线 一 一 
由 CPU 对 这 个 中 断 信号 啊 应 ， 翻 转 特权 级 (从 用 
户 进 程 的 3 特权 级 翻转 到 内 核 的 0 特权 级 ) ， 通 过 
IDTHREI RAH H moO, YH ALS AST H EK 

数 来 处 理事 务 ， 之 后 ， 再 iret 翻 转 回 到 进程 的 3 特 
权 级 ， 进 程 继 续 执 行 原来 的 逻辑 ， 这 样 矛 盾 束 解 
RT ° 


2.10 ”初始 化 缓冲 区 管理 结构 


BAK eA SIM (如 硬盘， 以 后 以 硬盘 
为 例 ) 进行 数据 交互 的 媒介 。 内 存 与 硬盘 最 大 的 
区 别 在 于 ， 硬 一 的 作用 仅仅 是 对 数据 信息 以 很 低 
的 成 本 做 大量 数 据 的 断 电 保存 ， 并 不 参与 运 外 
(因为 CPU 无 法 到 硬盘 上 进行 寻 址 ) ， 而 内 存 除 
了 需要 对 数据 进行 保存 以 外 ， 更 重要 的 是 要 与 
CPU、 忆 线 配 合 进 行 数据 运算 。 绥 冲 区 则 介 于 两 
痢 之 间 ， 它 既 对 数据 信息 进行 保存 ， 也 能 够 参与 
一 些 像 碍 找 、 组 织 之 类 的 间接 、 辅 助 性 运算 。 有 
了 缓冲 区 这 个 媒介 以 后 ， 对 外 设 而 言 ， 它 仅 需 要 
考虑 与 缓冲 区 进行 数据 交互 和 合 符 合 有 要求， 而 不 
需要 考虑 内 存 如 何 使 用 这 些 交 互 的 数据 ;对 内 存 
言 ， 它 也 仅 需 要 考虑 与 缓冲 区 交互 的 条 件 是 否 


成 熟 ， 而 不 需要 关心 此 时 外 设 对 缓冲 区 的 交互 情 
况 。 两 着 的 组 织 、 管 理 和 协调 将 由 操作 系统 统一 
PRIE ° 


操作 系统 通过 hash table[NR_HASH]、 
buffer_ head 双 回环 链表 组 成 的 复 洒 的 哈 和希 表 管理 
缓冲 区 。 


操作 系统 通过 调用 buffer_init O 函数 对 缓冲 
区 进行 设置 ， 执 行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


在 buffer_init () 函数 里 ， 从 内 核 的 末端 及 组 
冲 区 的 末端 同时 开始 ， 方 向 相对 增长 、 配 对 地 做 
出 buffer_head、 绥 冲 块 ， 直 到 不 足 一 对 
buffer_head、 缓 冲 块 。 在 第 2 章 开 始 时 设 定 的 内 存 
格局 下 ， 有 3000 多 对 buffer_head、 绥 冲 块 ， 
buffer_head 在 低地 址 端 ， 缓 冲 块 在 高 地 址 端 。 


将 buffer_head 的 成 员 设备 号 b_ dev、 引 用 次 效 
b_count、“ 更 新 ”标志 b_uptodate、“ 脏 ”标志 
b_dirt、“ 饮 定 ” 标 志 b_lock 设 置 为 0。 如 图 2-24 所 
示 ， 将 b_data 指 针 指 回 对 应 的 缓冲 块 。 利 用 
buffer_head 的 b_prev_free、b_next_free， 将 所 有 的 
buffer_head 形 成 双 同 链表 。 使 free_list 指 癌 第 一 个 


buffer head， 并 利用 free list 将 buffer head 形 成 双 
癌 链表 链接 成 双 同 环 链 表 ， 如 图 2-25 所 示 。 


注意 图 2-26 顶 部 所 示 的 内 存 的 变化 。 在 紧 靠 
系统 内 核 的 部 分 ， 多 出 了 一 块 用 黑色 表示 的 内 存 
区 域 ， 那 里 面 存 储 的 吏 是 缓冲 区 管理 结构 。 由 于 
它 管理 看 3000 多 个 绥 促 块 ， 因 此 它 占 用 的 内 和 存 空 
间 的 大 小 ， 与 内 核 几 乎 甘 不 多 。 图 2-26 中 也 对 空 
则 表 的 双 同 链表 结构 给 出 了 形象 的 膏 明 。 


Al 2-24 初始 化 示意 图 a 
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A 2-25 初始 化 示意 图 b 


最 后 ， 对 hash_table[307] 进 行 设置 ， 将 
hash_table[307] 的 所 有 项 全 部 设置 为 NULL， 如 
2-26 第 二 步 所 示 。 


人 Ox9FFFF OxFFFFF Ox3FFFFF OQxSFFFFF OxFFFFFF 


: 第 一 步 :对 空 阳 表 进行 设置 


~ 
缓冲 区 初始 化 后 


0 307 


到 


"RA 


图 2-26 初始 化 缓冲 区 管理 结构 


对 应 的 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 
struct buffer head * start buffer= (struct buffer head *) Send; 
struct buffer head * hash_table[ NR_HASH]; 


static struct buffer_head * free_list; 


void buffer_init (long buffer_end) 
{ 

struct buffer_head * h=start_buffer; 
void * b; 

int i; 

if (buffer end==1< <20) 

b= (void*) (640*1024) ; 

else 

b= (void *) buffer_end; 


Ah、b 分 别 从 缓冲 区 的 低地 址 端 和 高 地 址 端 开 始 ， 每 次 对 进 
buffer_ head、 绥 冲 块 各 一 个 


/忽略 剩余 不 足 一 对 buffer_ head、 组 冲 块 的 空间 

while ( (b-=BLOCK_SIZE) >= ( (void*) (h+1) ) ) { 
h- > b_dev=0; 

h- > b_dirt=0; 

h- > b_count=0; 


h- > b_lock=0; 


h- > b_uptodate=0; 
h- > b_wait=NULL; 


h->b_next=NULL; // 这 两 项 初始 化 为 空 ， 后 续 的 使 用 将 与 
hash_table 挂 接 


h- > b_prev=NULL; 

h->b_data= (char*) b; /每 个 buffer head 关联 一 个 缓冲 块 
h->b_prev_free=h-1; /这 两 项 使 buffer_head 分 别 与 前 、 
h->b_next_free=h+1; /后 buffer head 挂 接 ， 形 成 双向 链表 
h++; 

NR _BUFFERS++; 

if (b== (void *) 0x100000) // 避 开 ROMBIOS&VGA 

b= (void *) 0xA0000; 

} 

h--; 

free _list=start_buffer; //free_list 指 癌 第 一 个 buffer_head 
free _list- >b_prev_free=h; // 使 buffer_head 双 辣 链表 
h->b_next free=free_list，// 形 成 双向 环 链 表 


for (i=0; i<NR HASH; i++) // 清 空 hash_table[307] 


hash _table[iJ=NULL; 


} 


注意 看 代码 中 struct buffer head * 
h=start_buffer 这 一 行 。 这 一 行 中 的 start_buffer 人 确定 
了 缓冲 区 的 起 始 位 置 ， 这 也 就 回答 了 2.2 节 中 关于 
缓冲 区 起 始点 位 置 的 这 个 问题 。 它 是 在 buffer.c 中 
定义 的 : 


struct buffer head * start_buffer= (s truct buffer head *) &end: 


这 个 end 吏 征 内 核 代 码 末 站 的 地 址 。 在 代码 编 
写 阶 段 ， 设 计 阁 事先 较 难 准确 估算 这 个 地 址 ， 于 
征 殉 在 内 核 模 块 链接 期 间 设置 end 这 个 值 ， 然 后 在 
jx AE FA 


2.11 初始 化 硬盘 


硬盘 的 初始 化 为 进程 与 硬盘 这 种 块 设备 进行 
VO 通信 建立 了 环境 基础 


在 hd_init O 函数 中 ， 将 硬盘 请 求 项 服务 程 
序 do_hd_request () 与 blk_dev 欣 制 结构 相 挂 接 ， 
便 盘 与 请 求 项 的 交互 工作 将 由 do_hd_request () 
函数 来 处 理 ， 然 后 将 硬盘 中 断 服务 程序 
hd_interrupt () 与 IDT 相 挂 接 ， 最 后 ， 复 位 主 
8259A int2 的 屏蔽 位 ， 人 允许 从 上 请 发 出 中 断 请 求 信 
号 ， 复位 硬盘 的 中 断 请 求 屏蔽 位 EMARE) ， 
允许 硬盘 控制 器 发 送 中 断 请 求 信和 号。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


ee 


ee ee 


/代码 路 径 : kernel/blk_dev/hd.c: /与 rd_init 类 似 ， 参 看 rd_init 的 注 


void hd_init (void) 
{ 


blk _dev[MAJOR_NR].request_fn=DEVICE_REQUEST; // 挂 接 
do_hd_request () 


set_intr_gate (0x2E， 必 hd_interrupt) ; /设置 便 盘 中 断 


outb p (inb_p (0x21) &Oxfb, 0x21) ; /人 允许 8259A 发 出 中 断 请 


outb (inb_p (0xA1) &Oxbf, OxA1) ; /人 允许 硬盘 发 送 中 断 请 求 


} 


图 2-27 形 象 地 给 出 了 初始 化 过 程 。 


0x9FFFF OxFFFFF Ox3FFFFF OxSFFFFF 


第 二 六 将 要 得 中 国 服 务 ab em 


项 服务 程序 do_hd_request 
程序 hd_interrupt 与 
与 blk_dev[7] 的 第 3 
IDT 的 第 0x2E 项 相 挂 接 项 (hdc #defi 
MAJOR_NR 3) 相 8259A 
FEE 
第 三 步 :复位 硬盘 
的 中 断 请 求 屏蔽 位 


Al 2-27 初始 化 硬盘 


2.12 ”初始 化 软盘 


软盘 和 软盘 豫 动 右 可 以 分 离 ， 合 在 一 起 才 和 是 
一 个 整体 。 为 了 方便 起 抑 ， 本 书 所 述 的 软 僵 除 特 
别 声 明之 外 都 是 指 软盘 驱动 历 加 软盘 的 整体 。 


软盘 的 初始 化 与 硬盘 的 初始 化 类 似 ， 区 别 是 
挂 接 的 函数 是 do_fd_request， 初 始 化 的 是 与 软盘 
相关 的 中 断 。 细 下 可 参看 初始 化 硬盘 。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


floppy _init () ; /与 hd_init () 类 似 


ee ee 


void floppy_init (void) 
{ 


blk _dev[MAJOR_NR].request_fn=DEVICE_REQUEST; // 挂 接 
do_fd_request () 


set_trap_gate (0x26, &floppy_interrupt) ; /设置 软盘 中 断 
outb (inb_p (0x21) &~0x40, 0x21) ; /人 允许 软盘 发 送 中 断 


} 


独 2-28 给 出 了 软盘 初始 化 的 主要 步 又 和 完成 
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图 2-28 初始 化 软 一 


2.13 FAB et 


现在 ， 系 统 中 所 有 中 断 服务 程序 都 已 经 和 
IDTIE TERE ARRE TITRA AA CAME 
完毕 ， 系 统 可 以 在 32 位 保护 模式 下 处 理 中 断 ， 重 
要 意义 之 一 是 可 以 使 用 系统 调用 。 


P AUFERET! 


执行 代码 如 下 : 


/代码 路 径 : include/asm/system.h: 
#define sti () __asm__ ("sti": ) 
/代码 路 径 : init/main.c: 

void main (void) 


{ 


图 2-29 给 出 了 开 中 断后 的 效果 ， 注 意 其 中 
EFLAGS 中 的 变化 。 
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图 2-29 开启 中 断 


2.14 ”进程 0 由 0 特权 级 翻转 到 3 特权 
级 ， 成 为 真正 的 进程 


Linux 操 作 系统 规定 ， 除 进程 0 之 外 ， 所 有 进 
程 都 要 由 一 个 已 有 进程 在 3 特权 级 下 创建 。 在 
Linux 0.11 中 ， 进 程 0 的 代码 和 数据 都 站 由 操作 系 
统 的 设计 痢 写 在 内 核 代 码 、 数 据 区 ， 并 且 ， 此 前 
处 在 0 特权 级 ， 严 格 说 还 不 是 真正 意义 上 的 进程 。 
为 了 遵守 规则 ， 在 进程 0 正式 创建 进程 1 之 前 ， 要 
将 进程 0 由 0 特权 级 转变 为 3 特权 级 。 方 法 是 调用 
move_to_user_mode () 函数 ， 模 仿 中 断 返 回 动 
作 ， 实 现 进程 0 的 特权 级 从 0 转变 为 3。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


rr 


ee ee 


/代码 路 径 : include/system.h: /参看 1.3.4 节 


#define move_to_user_mode () V/ 模 仿 中 断 硬 件 压 栈 ， 顺 序 是 ss、 
esp ` eflags ` cs ` eip 
asm _ ("movl%%esp, %%eax\n\t" 


"pushl$0x17\n\t"V/SS 进 栈 ，0x17 即 二 进 制 的 10111 (3 特权 级 、 
LDT、 数据 段 ) 


"pushl%%eax\n\t"V/ESP i tk 
"pushfl\n\t"V/EFLAGS #42 


"pushl$0x0fn\t"V/CS 进 栈 ，0x0f 即 1111 (3 特权 级 、LDT、 代 码 
段 ) 


"pushl$1An\t"V/EIP 进 栈 


"iretn"V/ 出 栈 恢复 现场 、 翻 转 特 权 级 从 0 到 3 


"1: \tmovl$0x17，%%eaxn\t"V/ 下 面 的 代码 使 ds、es、fs、gs 与 ss 
— BL 


"movw%%ax, %%ds\n\t"\ 
"movw%%ax, %%es\n\t"\ 
"movw%%ax, %%fs\n\t"\ 
"movw%%ax, %%gs"\ 


: »ax») 


IA-32 体 系 结构 翻 较 特权 级 的 方法 之 一 征用 中 
断 。 第 1 章 介绍 过 ， 当 CPU 接 到 中 断 请 求 时 ， 能 
断 当 前 程序 的 执行 序 ， 将 CS: EIP 切 换 到 相应 的 
中 断 服务 程序 去 执行 ， 执 行 完 毕 又 执行 iret 指 令 返 
回 和 被 中 断 的 程序 继续 执行 。 

这 期 间 ，CPU 人 硬件 还 做 了 两 件 事 : 一 件 是 便 


件 保护 现场 和 恢复 现场 ， 另 一 件 是 可 以 翻转 特权 
级 。 


从 代码 的 执行 序 上 看 ， 中 断 类 似 函 数 调用 ， 
都 是 从 一 段 正在 执行 的 代码 跳 转 到 另 一 段 代 码 执 
行 ， 执 行 之 后 返回 原来 的 那 段 代码 继续 执行 。 为 
了 保证 执行 完 函 数 或 中 断 服 务 程序 的 代码 之 后 能 
准确 返回 原来 的 代码 继续 执行 ， 需 要 在 跳 转 到 函 
数 或 中 断 服务 程序 代码 之 前 ， 将 起 跳 点 的 下 一 行 
代码 的 CS、EIP 的 值 压 栈 保 存 ， 集 扩 现 场 。 函 数 
或 中 断 服务 程序 的 代码 执行 完毕 ， 再 将 栈 中 保存 
的 值 出 栈 给 CS、EIP， 此 时 的 CS、EIP 指 向 的 就 是 
起 跳 点 的 下 一 行 ， 恢 复 现 场 。 所 以 ，CPU 能 准确 
地 执行 主 调 程序 或 被 中 断 的 程序 。 实 际 需要 保护 
的 寄存 硕 还 有 EFLAGS 等 。 


中 断 与 函数 调用 不 同 的 是 ， 函 数 调用 十 程序 
员 事 和 完 设 计 好 的 ， 知 道 在 代码 的 哪个 地 方 调用 ， 


编译 絮 可 以 预先 编 译 出 压 栈 祭 扩 现场 和 出 栈 恢复 
现场 的 代码 ; 而 中 断 的 发 生 是 不 可 预见 的 ， 无 法 
预 完 编译 出 保护 、 恢 复 的 代码 ， 只 好 由 便 件 完成 
保护 、 恢 复 的 压 栈 、 出 栈 动 作 。 所 以 ，int 指 令 会 
引发 CPU 硬 件 完成 SS、ESP、EFLAGS、CS ` EIP 
的 值 按 序 进 栈 ， 同 理 ，CPU 执 行 iret 指 令 会 将 栈 中 
的 值 目 动 按 反 序 恢复 给 这 5 个 寄存 絮 。 


CPU 啊 应 中 断 的 时 候 ， 根 据 DPL 的 设置 ， 可 
以 实现 指定 的 符 权 级 之 间 的 翻转 。 前 面 的 
sched_init 函 数 中 的 set_system_gate (0x80, & 
system_call) 就 是 设置 的 int 0x80 中 断 由 3 特权 级 翻 
转 到 0 特权 级 ，3 特 权 级 的 进程 做 了 系统 调用 int 
0x80，CPU 就 会 翻转 到 0 特权 级 执行 系统 代码 。 同 


理 ，iret 又 会 从 0 特权 级 的 系统 代码 翻 胃 回 3 特权 级 
执行 进程 代码 。 


move_to_user_mode () 函数 束 是 根据 这 个 原 
理 ， 利 用 iret 实 现 从 0 特权 级 翻转 到 3 特权 级 。 


由 于 进程 0 的 代码 到 现在 一 直 处 在 0 特权 级 ， 
并 不 是 从 3 特权 级 通过 int 翻 转 到 0 特权 级 的 ， 栈 中 
并 没有 int 目 动 讨 栈 的 5 个 寄存 万 的 值 。 为 了 iret 的 
正确 使 用 ， 设 计 痢 手工 写 压 栈 代码 模拟 int 的 压 
栈 ， 当 执行 iret 指 令 时 ，CPU 目 动 将 这 5 个 寄存 器 
的 值 按 序 恢复 给 CPU,CPU 就 会 翻转 到 3 特权 级 的 
段 ， 执 行 3 特 权 级 的 进程 代码 。 


为 了 iret 能 翻转 到 3 特权 级 ， 不 仅 手工 模拟 的 
压 栈 顺序 必须 正确 ， 而 且 SS、CS 的 特权 级 还 必须 


正确 。 注 意 : 栈 中 的 SS 值 是 0x17， 用 二 进 制 表示 
就 是 00010111， 最 后 两 位 表示 3， 是 用 户 特权 级 ， 
倒数 第 3 位 是 1， 表 示 从 LDT 中 获取 上段 描述 符 ， 第 4 
一 5 位 的 10 表 示 从 LDT 的 第 3 项 中 得 到 进程 栈 段 的 


描述 符 。 


当 执 行 iret 时 ， 硬 件 会 按 序 将 5 个 push 压 栈 的 
数据 分 别 出 栈 给 SS、ESP、EFLAGS、CS、EIP。 
压 栈 顺序 与 通常 中 断 返 回 时 硬件 的 出 栈 动 作 一 
样 ， 返 回 的 效果 也 是 一 样 的 。 


执行 完 move_to_user mode () ， 相 当 于 进行 
了 一 次 中 断 返 回 ， 进 程 0 的 特权 级 从 0 翻转 为 3， 成 
为 名 副 其 实 的 进程 。 


2.15 ”本章 小 结 


本 章 开 始 执行 以 main O 函数 为 代表 的 用 C 
语言 编写 的 操作 系统 内 核 代 码 ， 内 容 涉 及 便 件 初 
6 化 、 为 内 核 及 进程 的 正确 运行 所 做 的 初始 化 、 
激活 进程 0。 


便 件 初始 化 驻 可 以 分 为 两 类 : 一 类 十 与 主机 
有 关 的 人 硬件 初始 化 ， 包 括 规划 内 存 格局 、 设 置 太 
急 始 化 缓冲 区 、 设 置 及 初始 化 虚拟 型 、 初 始 化 
mem_map、 初 始 化 缓冲 区 管理 结构 等 ;， 另 一 类 坪 
与 外 设 有 天 的 初始 化 ， 包 括 设置 根 设 备 、 初 始 化 
软盘 、 初 始 化 便 盘 等 。 


为 内 核 及 进程 的 正确 运行 所 做 的 初始 化 ， 包 
括 中 断 服 务 程序 的 挂 毛 、 初 始 化 进程 0 等 。 


最 后 右 是 用 仿 中 断 的 方法 将 进程 0 的 特权 级 由 
0 翻转 到 3， 实 现 激活 进程 0 。 


第 3 章 ”进程 1 的 创建 及 执行 


现在 ， 计 算 机 中 已 经 有 了 一 个 名 副 其 实 的 、3 
竺 权 级 的 进程 一 一 进程 0。 下 面 我 们 要 详细 讲解 进 
程 0 做 的 第 一 项 工作 一 一 创建 进程 1。 


3.1 进程 1 的 创建 


进程 0 现在 处 在 3 特权 级 状态 ， 即 进程 状态 。 
正 却 开始 运行 要 做 的 第 一 件 事 吏 生 作为 父 进程 调 
用 fork 轴 效 创建 第 一 个 子 进程 一 一 进程 1， 这 征 父 
于 进程 创建 机 制 的 第 一 次 实际 运用 。 以 后 ， 所 有 
进程 都 是 基于 父子 进程 创建 机 制 由 父 进程 创建 出 
来 的 。 


3.1.1 进程 0 创建 进程 1 


在 Linux 操 作 系统 中 创建 新 进程 的 时 候 ， 都 是 
由 父 进 程 调用 fork 函 数 来 实现 的 。 该 过 程 如 图 3-1 
所 示 。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 

static inline_syscall0 (int,fork) // 对 应 fork () 函数 
static inline_syscall0 (int,pause) 

static inline_syscall1 (int,setup,void* , BIOS) 

void main (void) 

{ 

sti () ; 

move to user mode () ; 


if (! fork () ) {/*we count on this going ok*/ 


init () ; 


/* 
*NOTE! For any other task'pause () ‘would mean we have to get a 
*sional to awaken,but task0 is the sole exception (see'schedule () ') 
*as task 0 gets activated at every idle moment (when no other tasks 
*can run) .For taskO'pause () ‘just means we go check if some other 
*task can run,and if not we return here. 

a) 

for (; ) pause () ; 


} 
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第 二 步 : 从 IDT 一 直 跳 转 栈 的 数据 都 在 此 结构 处 
到 sys_fork 执 行 


apn} A ie a 
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3-1 操作 系统 为 创建 进程 1 进行 的 准备 工作 


从 上 面 main.c 的 代码 中 对 fork O 的 声明 ， 可 
知 调用 forkk 函 数 ， 实 际 上 是 执行 到 unistd.h 中 的 宏 


函 效 syscall0 中 去 ， 对 应 代码 如 下 : 


/代码 路 径 : include/unistd.h: 
#define__NR_setup 0/*used only by init,to get system going*/ 
#define NR exit 1 
#defne__NR_fork 2 
#define__NR_read 3 
#define NR write 4 
#define__NR_open 5 
#define__NR_close 6 
#define_syscall0 (typename) \ 
typename (void) \ 

{\ 

long _ res; \ 


asm volatile ("int$0x80"\ 


s "=a" res) A 

: "0" (_NR ##name) ) ; \ 
if (__res>=0) \ 

return (type) _ res; \ 
errno=-__res; \ 


return-1; \ 


volatile void_exit (int status) ; 

int fcntl (int fildes,int cmd, ...... 
int fork (void) ; 

int getpid (void) ; 

int getuid (void) ; 

int geteuid (void) ; 

/代码 路 径 : include/linux/sys.h: 


extern int sys_setup Q ; 


extern int sys_exit () ; 


extern int sys_fork () ; /对 应 system_call.s 中 的 _sys_fork， 汇 编 中 
对 应 C 语 言 的 落 数 名 在 前 面 多 加 一 个 下 划 线 "“"， 如 C 语 言 的 sys_fork 对 
应 汇编 的 束 是 _sys_fork 


extern int sys_read () ; 
extern int sys_write O; 
extern int sys_open Q) ; 


fn _ptr sys_call_table[]= 
{sys_setup,sys_exit,sys_fork,sys_read, //sys_forkX{)¥_sys_call_tableH'/*8 
=i 


Sys _write,sys_open,sys_close,sys_waitpid,sys_creat,sys_link, 
sys _unlink,sys_execve,sys_chdir,sys_time,sys_mknod,sys_chmod, 


syscall0 展 开 后 ， 看 上 去 像 下 面 的 样子 : 


int fork (void) /参看 2.5 节 、、2.9 节 、、2.14 节 有 关 藤 入 汇编 的 代码 注 


long _ res; 


—_asm__ volatile ("int$0x80"//int 0x80 是 所 有 系统 调用 函数 的 总 入 
O, fork () 是 其 中 之 一 ， 参 看 2.9 市 的 讲解 及 代码 注释 


"=a" (_res) /第 一 个 冒号 后 是 输出 部 分 ， 将 _res 赋 给 eax 


"0" (_NR fork) ) ; /第 二 个 冒号 后 是 输入 部 分 ，"0": 同上 寄 
存 器 ， 即 eax， ”NR fork 就 是 2， 将 2 给 eax 


if (_res>=0) Vint 0x80 中 断 返 回 后 ， 将 执行 这 一 名 
return (int) __res; 

ermo=-__res; 

return-1; 

} 


/重要 : 别 忘 了 int 0x80 导 致 CPU 硬件 自动 将 ss、esp、efags、cs、 
eip 的 值 压 栈 ! 参看 2.14 节 的 讲解 及 代码 解释 


int 0x80 的 执行 路 线 很 长 ， 为 了 清 攻 起见， 将 
大 致 过程 图 示 如 下 ( 见 图 3-2) ° 


3 特权 级 


IDT 
_#ystem_call: 
Sees cep! $nr_systee_calls-1, Xeax 
fentl (int fildes, int cad, ...) 
fork(void) int 0x80 
getpid (void) 
tied id 
Yoar 
capl $0, state (Weax) 


je reschedule 
capl $0, counter (eax) 
Je reschedule 


sys_call table 


_sys_fork: 
call _find_empty_process 
taoti Sear, tani ——— find_empty_process() 
js 1f 
push %gs 
push] Nesi 
push] Sedi 
pushl %ebp 
push] Seax 
call _copy_proceas 
add] $20, ¥esp 


copy_process() 


get_free_page() 


copy_mem() get limit () 


get_base() 


set_base() 


copy_page_tables() —h get free page() 


3-2 ”系统 调用 路 线 图 
详细 的 执行 步 又 如 下 : 


先 执行 : "0" (_NR_fork) 这 一 行 ， 意 思 是 
将 fork 在 sys_call_table[] 中 对 应 的 函数 编号 
_NR fork (也 就 是 2) 赋值 给 eax。 这 个 编号 即 
sys fork () 函数 在 sys_call_table 中 的 偏 移 值 。 


紧 接 着 就 执行 "int$0x80"， 产 生 一 个 软 中 断 ， 
CUP 从 3 特权 级 的 进程 0 代码 跳 到 0 特权 级 内 核 代 码 
中 执行 。 中 断 使 CPU 硬件 自动 将 SS、ESP、 
EFLAGS、CS、EIP 这 5 个 寄存 侣 的 数值 按照 这 个 
顺序 压 入 图 3-1 所 示 的 init_task 中 的 进程 0 内 核 栈 。 
注意 其 中 init_task 结 构 后 面 的 红 条 ， 表 示 了 刚刚 压 
入 内 核 栈 的 寄存 器 数值 。 前 面 刚刚 提 到 的 
move_to_user_mode 这 个 函数 中 做 的 压 栈 动作 束 是 


模仿 中 断 的 硬件 压 栈 ， 这 些 压 栈 的 数据 将 在 后 续 
的 copy_process () 函数 中 用 来 初始 化 进程 1 的 
TSS ° 


值得 注意 ， 压 栈 的 EIP 指 向 当前 指 
令 "int$0x80" 的 下 一 行 ， 即 让 (_res>=0) 这 一 
行 。 这 一 行 就 是 进程 0 从 fork 画 数 系统 调用 中 断 返 
后 第 一 条 指令 的 位 置 。 在 后 续 的 3.3 太 将 看 到 ， 
这 一 行 也 将 是 进程 1 开始 执行 的 第 一 条 指令 位 置 。 


请 记 住 这 一 点 ! 


El 


ARGH2.9 0 EA sched_initkK ax 
set_system_gate (0x80, &system_call) 的 设置 ， 
CPU 目 动 压 栈 完 成 后 ， 跳 转 到 system_call.s 中 的 
_system_call 处 执行 ， 继 续 将 DS、ES、FS、 
EDX、ECX、EBX 压 栈 (以 上 一 系列 的 压 栈 操作 


都 是 为 了 后 面 调用 copy_process 函 数 中 初始 化 进程 
1 中 的 TSS 做 准备 ) 。 最 终 ， 内 核 通过 刚刚 设置 的 
eax 的 偏 移 值 “2” 查 询 sys_call_table[]， 得 知 本 次 系 
统 调 用 对 应 的 函数 是 sys_fork O 。 因 为 汇编 中 对 
应 C 语 言 的 函数 名 在 前 面 多 加 一 个 下 划 线 ” ”《〈 如 C 
语言 的 sys_fork () 对 应 汇编 的 束 是 _sys_fork) ， 
所 以 跳 转 到 _sys_fork 处 执行 。 


SAPP 


AKAAERE, Te H 
KRGEN ASNE as BA 7 A? HOR 
的 ， 是 操作 系统 压 层 代码 与 应 用 程序 代码 写作 手 
法 的 差异 之 一 ， 需 要 对 C 语 言 的 编译 、 运 行 时 结构 
非 党 清晰， 才能 彻 展 理解 。 运 行 时 ，C 语 言 的 参数 
存在 于 栈 中 。 模 仿 这 个 原理 ,操作 系 统 的 设计 痢 


可 以 将 前 面 程序 所 压 栈 的 值 ， 按 序 “ 强 行 ”认定 为 
苹 数 的 参数 ， 当 call 这 个 函数 有 时， 这 些 值 束 可 以 当 
做 参数 使 用 。 


上 述 过 程 的 执行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 


_system_call: #int 0x80 系统 调用 的 总 入 口 


cmpl $nr_system_calls-1, %eax 
ja bad_sys_call 


push %ds# 下 面 6 个 push 都 是 为 了 copy_process () 的 参数 ， 请 记 住 
压 栈 的 顺序 ， 别 忘 了 前 面 的 int 0x80 还 讨 了 5 个 寄存 器 的 值 进 栈 


push %es 

push %fs 

pushl %edx 

pushl %ecx#push%ebx, %ecx, Wedx as parameters 


pushl %ebx#to the system call 


movl $0x10, %edx#set Up ds,es to kernel space 
mov %dx, %ds 
mov %dx, %es 
movl $0x17, %edx#fs points to local data space 
mov %dx, %fs 


call_sys_call table (, %eax, 4) #eax 是 2， 可 以 看 成 call 
(_sys_call_table+2x4) 就 是 _sys_fork 的 入 口 


pushl %eax 

movl _current, %eax 

cmpl $0, state (%eax) #state 

jne reschedule 

cmpl $0, counter (%eax) #counter 

je reschedule 

ret _from_sys_call: 

movl _current, %eax#task[O]cannot have signals 
cmpl _task, %eax 

je 3f 


cmpw $0x0f,CS (%esp) #was old code segment supervisor? 


jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) , %ebx 
movl blocked (%eax) , %ecx 
notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx,signal (%eax) 
incl %ecx 

pushl %ecx 

call _do_signal 

popl %eax 

3: popl%eax 


popl %ebx 


popl %ecx 
popl %edx 
pop %fs 
pop %es 
pop %ds 
iret 


call sys_call table (, %eax, 4) 中 的 eax 是 
2， 这 一 行 可 以 看 成 call_sys_call_table+2x4 (4 的 意 
思 是 _sys_call_table[] 的 每 一 项 有 4 字 节 ) ， 相 当 于 
call_sys_call_table[2] ( 见 图 3-1 的 左 中 部 分 , W 


是 执行 sys_fork ° 


注意 : call_sys_call_table (, %eax, 4) 指令 
AR AHA RRP, IX Se PSE Ja 
copy_process 范 数 的 第 6 个 参数 long none ° 


对 应 代码 如 下 ， 


// 代 码 路 径 : kernel/system_call.s: 


_sys_fork: 
call _fnd_empty_process#%é] H find_empty_process () 


testl %eax，%eax# 如 果 返 回 的 是 -EAGAIN (11) ， 说 明 已 有 64 个 
进程 在 运行 


js 1f 
push %gs#5 个 push 也 作为 copy_process () 的 参数 初始 
pushl %esi 


pushl %edi 


pushl %ebp 
pushl %eax 


call _copy_process# 调 用 copy_process () 


addl $20, %esp 


3.1.2 ”在 task[64] 中 为 进程 1 申请 一 个 空 闪 
位 置 并 获取 进程 号 


开始 执行 sys_fork () 


表面 2.9 节 介绍 过 ， 在 sched_init () 函数 中 已 
经 对 task[64] 除 0 项 以 外 的 所 有 项 清空 。 现 在 调用 
find_empty_process () 琅 数 为 进程 1 获得 一 个 可 
用 的 进程 号 和 task[64] 中 的 一 个 位 置 。 图 3-3 标 示 
了 这 个 调用 的 效果 。 
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Al 3-3 在 内 核 数 据 区 中 查找 进程 空 几 项 


在 find_empty_process () 函数 中 ， 内 核 用 全 
局 变量 last_pid 来 存放 系统 目 开 机 以 来 票 计 的 进程 


效 ， 也 将 此 变量 用 作 新 建 进程 的 进程 号 。 内 核 第 
— Ria task[64], “人 区 "条 件 成 立 说明 last_pid 已 
伞 使 用 ， 则 ++last_pid， 直 到 获得 用 于 新 进程 的 进 
程 号 。 第 二 次 遍历 task[64]， 获 得 第 一 个 空闲 的 i 


俗称 任务 号 。 


现在 ， 两 次 表 历 的 结果 是 狐 的 进程 号 last_pid 


束 是 1， 在 task[64] 中 占据 第 二 项 。 图 3-3 标 示 了 这 
个 结果 。 


因为 Linux 0.11 的 task[64] 只 有 64 项 ， 最 多 只 
能 同时 运行 64 个 进程 ， 如 采 find_empty_process 
) 画 数 返回 -EAGAIN， 意 味 着 当前 已 经 有 64 个 
进程 在 运行 ， 当 然 这 种 情况 现在 还 不 会 发 生 。 执 
行 代码 如 下 : 


So. 2 


/代码 路 径 : kernel/fork.c: 


ee ee 


ee 


int fnd_empty_process (void) /为 新 创建 的 进程 找到 一 个 空 亲 的 位 
NR_TASKS 是 64 


{ 
int 1; 
repeat: 


if ( (++last_pid) <0) last_pid=1; /如 果 ++ 后 last_pid 溢 出 ， 则 置 


for (i=0; i<NR_TASKS; i++) /现在 ，++ 后 last_pid 为 1。 找 到 有 


效 的 last_pid 


if (task[i]& &task[i]->pid==last_pid) goto repeat; 

for (i=1; i<NR_TASKS; i++) /返回 第 一 个 空闲 的 i 
if (! task[i]) 

return i; 

retum-EAGAIN; //EAGAIN@11 


} 


进程 1 的 进程 号 及 在 task[64] 中 的 位 置 确定 
后 ， 正 在 创建 的 进程 1 丈 等 于 有 了 刁 份 。 搂 下 来 ， 
在 进程 0 的 内 核 栈 中 继续 压 栈 ， 将 5 个 寄存 合 值 进 
栈 ， 为 调用 copy_process () RAVER BBL, ite 
数据 也 是 用 来 初始 化 进程 1 的 TSS。 注 意 : 最 后 压 
栈 的 eax 的 值 职 是 find_empty_process () KUA E] 
的 任务 号 ， 也 将 是 copy_process () KAJ — A 


参数 int nr ° 


压 栈 结束 后 ， 开 始 调用 copy_process () 加 
数 ， 如 图 3-4 中 第 二 步 所 示 。 
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3-4 调用 copy_process () 之 前 的 压 栈 动作 


3.1.3 Yala copy_process KZN 


进程 0 已 经 成 为 一 个 可 以 创建 子 进程 的 父 进 
程 ， 在 内 核 中 有 “进程 0 的 task_struct" 和 * 进 程 0 的 
页 表 项 ”等 专属 进程 0 的 管理 信息 。 进 程 0 将 在 
copy_process () 函数 中 做 非常 重要 的 、 体 现 父子 
进程 创建 机 制 的 工作 : 


1) 为 进程 1 创建 task_struct， 将 进程 0 的 
task_struct 的 内 容 复 制 给 进程 1。 


2) 为 进程 1 的 task_struct、tss 做 个 性 化 设置 。 


3) 为 进程 1 创建 第 一 个 页 表 ， 将 进程 0 的 页 表 
项 内 容 赂 给 这 个 页 表 。 


4) 进程 1 共 至 进程 0 的 文件 。 


5) 设置 进程 1 的 GDT 项 。 


6) 最 后 将 进程 1 设置 为 束 绪 人 态 ， 使 其 可 以 参 
与 进程 间 的 轮转 。 


现在 调用 copy_process () ERR! 


在 讲解 copy_process () 萎 数 之 前 ,值得 提醒 
的 是 ， 所 有 的 参数 部 是 剖面 的 代码 累积 压 栈 形成 
的 ， 这 些 参数 的 数值 部 与 压 栈 时 的 状态 有 关 。 执 
行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long efags,long esp,long ss) 


/注意 : 这 些 参数 是 int 0x80、system_call、sys_fork 多 次 累积 压 栈 
的 结 末 ， 顺 序 是 完全 一 致 的 


{ 

struct task_struct * p; 
int i; 

struct file * f; 


/在 16 MB 内 存 的 最 高 端 获取 一 页 ， 强 制 类 型 转换 的 潜台词 是 将 这 
个 页 当 task_union 用 ， 参 看 2.9 节 


p= (struct task_struct *) get_free_page () ; 
if (! p) 


return-EAGAIN; 


task[nr]=p; // 此 时 的 nr 就 是 1， 潜 台词 是 将 这 个 页 当 task_union 用 ， 
参看 2.9 节 


进入 copy_process () 画 数 后， 调用 
get_free_page () 函数 ， 在 主 内 存 申 请 一 个 空 朵 


页 面 ， 并 将 申请 到 的 页 面 清 零 ， 用 于 进程 1 的 
task_struct 及 内 核 栈 。 


按照 get_free_page () EMANATE, EME 
内 存 的 末端 开始 向 低地 址 端 递 进 ， 现 在 是 开机 以 
来 ， 操 作 系统 内 核 第 一 次 为 进程 在 主 内 存 申请 
村 页 面 ， 申 请 到 的 空 几 页 面 肯定 在 16 MB 主 内 存 
HJER e 


执行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


unsigned long get_free_page (void) /遍历 mem map[]， 找 到 主 内 存 
中 (从 高 地 址 开始 ) 第 一 个 空闲 页 面 


(WE BA RAIL SEE 
register unsigned long__res asm ("ax") ; 


_asm ("std; repne; scasbn\t"// 反 问 扫 描 串 (mem map[]) , al 
(0) 与 di 不 等 则 重复 ( 找 引 用 对 数 为 0 的 项 ) 


"jne 1fn\t"W/ 找 不 到 空 几 页 ， 跳 转 到 1 


"movb$1, 1 (%%edi) \n\t"// 将 1 赋 给 edi+1 的 位 置 ， 在 mem map[] 
中 ， 将 找到 0 的 项 的 引用 计数 置 为 1 


"sall$12，%%ecx\n\t"//ecx 算 数 左 移 12 位 ， 页 的 相对 地 址 
"addl%2, %%ecx\n\t"//LOW MEN+ecx， 页 的 物理 地 址 
"movl%%ecx, %%edx\n\t" 

"movl$1024, %%ecx\n\t" 


"leal 4092 (%%edx) ，%%edi\n\t"// 将 edx+4 KB 的 有 效 地 址 赋 给 
edi 


"rep; stosl\n\t"// 将 eax 〈 即 "0" (0) ) 赋 给 edi 指 向 的 地 址 ， 目 的 是 
页 面 清 零 


"movl%%edx, %%eax\n" 


"4. W 


: "o" (0) , "i" (LOW MEM) , "c" (PAGING PAGES) , 


"D" (mem_map+PAGING_PAGES-1) //edx,mem map[] 的 最 后 一 个 
元 素 


"di", "cx", "dx") // 第 Bt I 3 后 是 程 | 中 Wy ARS 的 量 


return _ res; 


回 到 copy_process 范 数 ， 将 这 个 页 面 的 指针 强 
制 类 型 转换 为 指向 task_struct 的 指针 类 型 ， 并 挂 接 
在 task[1] 上， 即 task[nr]=p。nr 就 是 第 一 个 参数 ， 
征 find_empty_process 函 数 返 回 的 任务 号 。 


请 注意 ，C 语 言 中 的 指针 有 地 址 的 含义 ， 更 
有 类 型 的 含义 ! 强制 类 型 转换 的 意思 是 “认定 ”这 
个 页 面 上 低 地 址 病 吏 是 进程 1 风 task_struct 的 百 地 
址 ， 同 时 暗示 了 高 地 址 部 分 是 内 核 栈 。 了解 了 这 
一 点 ， 后 面 的 p->tss.esp0=PAGE_SIZE+ (long) p 
网 不 奇怪 了 。 


PE 


task_struct 古 操作 系统 标识 、 管 理 进程 的 最 重 
要 的 数据 结构 ， 每 一 个 进程 必须 具备 只 属于 目 己 
的 、 唯 一 的 task_struct ° 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 
long eip,long cs,long efags,long esp,long ss) { 


ee ee 


return-EAGAIN; 


task[nrJ=p; /此 时 的 nr 就 是 1 


/#current 指 癌 当 前 进程 的 task_struct 的 指针 ， 当 前 进程 是 进程 0。 下 
面 这 行 的 意思 : 将 父 进程 的 task_struct 赋 给 子 进 程 。 这 是 父子 进程 创建 
机 制 的 重要 体现 。 这 行 代码 执行 后 ， 父 子 进程 的 task_struct 将 完全 一 样 
*/ 


*p=*current; /*NOTE ! this doesn't copy the supervisor stack*/ 


MER! 注意 指针 类 型 ， 只 复制 task_struct， 并 未 将 4 KB 都 复制 ， 
即 进程 0 的 内 核 栈 并 未 复制 */ 


p->state=TASK_UNINTERRUPTIBLE; // 只 有 内 核 代码 中 明确 表 
示 将 该 进程 设置 为 束 结 状态 才能 被 唤醒 ， 除 此 之 外 ， 没 有 任何 办 法 将 
其 唤醒 

p->pid=last_pid; /开始 于 进程 的 个 性 化 设置 

p- > father=current- > pid; 

p- > counter=p- > priority; 

p- > signal=0; 

p- > alarm=0; 

p-> leader=0; /*process leadership doesn't inherit*/ 

p- > utime=p- > stime=0; 

p- > cutime=p- > cstime=0; 

p-> start_time=jiffies ; 


p-> tss.back_link=0; /开始 设置 子 进程 的 TSS 


ee ee 


效果 如 图 3-5 〈 为 了 方便 阅读 ， 我 们 把 2.9 
的 图 2-20 复 制 在 下 面 ) 所 示 。 


union task_union 


struct task_struct task; 
char stack[PAGE SIZE]; 


esp 
stack (4 KB, 正好 一 页 ) 
init_task 
(task_union) 
task_struct (INIT_TASK) 
(956 B) 
INIT_TASK 指 针 
个 栈 是 内 核 代码 使 用 的 ， 

na eyed 内 核 代 码 
压 栈 绝对 不 会 覆盖 task_struct 


3-5 task_union 结 构 示 和 意 氏 


APE 


task_unionAyiZtI TRAD ° AIA 
task_struct， 后 面 是 内 核 栈 ， 增 长 的 方 回 正好 相 
反 ， 正 好 占用 一 页 ， 顺 应 分 页 机 制 ， 分配 内 存 非 


常 方便 。 而 且 操 作 系 统 设计 者 肯定 经 过 反复 测 
试 ， 你 证 内 核 代码 所 有 可 能 的 调用 和 导 人 致 压 栈 的 最 
大 长 度 都 不 会 履 兰 前 面 的 task_struct。 因 为 内 核 代 
码 痢 是 控 作 系统 设计 痢 设 计 的 ， 可 以 做 到 心中 有 
数 。 相 反 ， 假 如 这 个 方法 为 用 尸 进程 提供 栈 空 
A], TAR Ala I ° 


接 下 来 的 代码 意义 重大 : 


*p=*current; /*NOTE ! this doesn't copy the supervisor stack*/ 


current 征 指 回 当 前 进程 的 指针 p 十 进程 1 的 
指针 。 当 前 进程 是 进程 0， 是 进程 1 的 父 进程 。 将 
父 进 程 的 task_struct 复 制 给 子 进程 ， 就 是 将 父 进 程 
最 重要 的 进程 属性 复制 给 了 子 进 程 ， 子 进程 继承 


了 父 进程 的 绝 大 部 分 能 力 。 这 是 父 于 进程 创建 机 
制 的 特点 之 一 。 


进程 1 的 task_struct 的 雏形 此 时 已 经 形成 了 ， 
进程 0 的 task_struct 中 的 信息 并 不 一 定 全 都 适用 于 
进程 1， 因 此 还 需要 针对 具体 情况 进行 调整 。 初 步 
设置 进程 1 的 task_struct 如 图 3-6 所 示 。 从 p-> 开 始 
的 代码 ， 都 是 为 进程 1 所 做 的 个 性 化 调整 设置 ， 其 
中 调整 TSS 所 用 到 的 数据 都 是 前 面 程序 素 积 压 栈 
形成 的 参数 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nrlong ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 


long fs,long es,long ds, 


long eip,long cs,long efags,long esp,long ss) 


p-> start_time=jiffies ; 
p-> tss.back_link=0; /开始 设置 子 进程 的 TSS 


p->tss.esp0=PAGE_SIZE+ (long) p; //esp0 是 内 核 栈 指针 ， 参 看 
上 上面 的 注释 及 2.9.1 市 


p-> tss.ssO=0x10; WOx10 束 是 10000，0 特 权 级 ，GDT， 数 据 段 


p- >tss.eip=eip; /重要 ! 就 是 参数 的 EIP， 是 int 0x80 压 栈 的 ， 指 问 
的 是 : if (__res>=0) 


p-> tss.eflags=eflags; 


p->tss.eax=0; /重要 ! 决定 main () 函数 中 过 (! fork () ) 后 面 
的 分 文 走 回 


p- > tss.ecx=ecx; 
p- > tss.edx=edx; 
p- > tss.ebx=ebx; 
p- > tss.esp=esp; 


p- > tss.ebp=ebp; 


p- > tss.esi=esi; 

p- > tss.edi=edi; 

p- > tss.es=es & Oxffff; 

p- > tss.cs=cs & Oxffff; 

p- > tss.ss=ss & Oxffff; 

p- > tss.ds=ds & Oxffff; 

p- > tss.fs=fs & Oxffff; 

p-> tss.gs=gs & Oxffff; 
p->tss.Idt=_LDT (nr) ; / 挂 接 子 进程 的 LDT 
p- > tss.trace_bitmap=0x80000000; 
if (last_task_used_math==current) 


_ asm_ (,clts; fnsave%0": "m" (p-> tss.i387) 


ee ee 


p- > tss.eip=eip; 


p- > tss.eax=0; 


这 两 行 代码 为 第 二 次 执行 fork O 中 的 i 
(_res>=0) 埋 下 伏笔 。 这 个 伏笔 比较 隐 讳 ， 不 
太 容易 看 出 来 ， 请 读 首 一 定 要 记 住 这 件 事 ! 
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第 二 步 : 把 进程 0 的 管理 
信息 全 部 复制 到 空闲 页 
面 的 相应 位 置 内 
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第 一 步 ; 把 进程 1 的 
task_struct 挂 接 
在 task[1] 上 


六 mm 


进程 0 进程 1 : 


A 3-6 初步 设置 进程 1 的 task_struct 


调整 完成 后 ， 进 程 1tyJtask_struct 如 图 3-7 所 
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所 在 页 面 


进程 1 各 个 管理 成 员 进行 详细 调整 


Al 3-7 对 进程 1 的 task_struct 进 行 调整 
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进程 1 的 task_struct 所 在 页 面 > 


a7 


YEN 
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Intel 80x86 体 系 结构 分 页 机 制 是 基于 保护 模 
式 的 ， 先 打开 pe， 才 能 打开 pg， 不 存在 没有 pe 的 
pg。 保 护 模 式 是 基于 段 的 ， 换 句 话 说， 设置 进程 1 
的 分 页 管理 ， 束 要 先 设置 进程 1 的 分 段 。 


一 般 来 讲 ， 每 个 进程 都 要 加 载 属 于 目 己 的 代 
的、 效 据 。 这 些 人 代码、 数据 的 寻 址 都 是 用 段 加 侦 
移 的 形式 ， 也 残 是 逻辑 地 址 形式 表示 的 。CPU 硬 
件 目 动 将 逻辑 地 址 计算 为 CPU 可 寻 址 的 线性 地 
址 ， 册 根据 操作 系统 对 页 目录 表 、 页 表 的 设置 ， 
目 动 将 线性 地 址 转换 为 分 页 的 物理 地 址 。 操 作 系 
统 正 是 沿 看 这 个 技术 路 线 ， 先 在 进程 1 的 64 MB 线 


性 地 址 空间 中 设置 代码 段 、 数 据 段 ， 然 后 设置 页 
He > VLA ° 


1. 在 进程 1 的 线性 地 址 空间 中 设 管 代码 段 、 数 
据 段 


调用 copy_mem () 画 数 ， 先 设置 进程 1 的 代 
码 段 、 数 据 段 的 段 基 址 、 段 限 长 ， 提 取 当 前 进程 
(进程 0) 的 代码 段 、 数 据 段 以 及 段 限 长 的 信息 ， 
并 设置 进程 1 的 代码 段 和 数据 段 的 基地 址 。 这 个 基 
地 址 就 是 它 的 进程 号 nr*64 MB。 设 置 新 进程 LDT 

中 段 描述 竺 中 的 基地 址 ， 如 图 3-8 中 的 第 一 步 所 


一 一 人 


ZN ° 


执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long efags,long esp,long ss) 


if (last task used _math==current) 
_asm ("clts; fnsave%0": "m" (p->tss.i387) ) ; 


if (copy_mem (nrp) ) {// 设 置 子 进程 的 代码 段 、 数 据 段 及 创 
建 、 复 制 子 进程 的 第 一 个 页 表 


task[nr]=NULL; /现在 不 会 出 现 这 种 情况 
free_page ( (long) p) ; 
return-EAGAIN; 


} 


for (i=0; i<NR_OPEN; i++) // 下 面 将 父 进 程 相关 文件 属性 的 引 
用 计数 加 1， 表 明 父 子 进程 共享 文件 


0 64 MB 128 MB 192 MB 256 MB 4 GB-1 


段 限 长 640KB 
Ox! 0x9FFFF OxFFFFF 0x3FFFFF 0x5FFFFF OxFFFFFF 
上 i 个 页 目录 表 和 4 个 页 表 = a di 
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图 3-8 设置 进程 1 的 线性 地 址 空间 


// 代 码 路 径 : include/linux/sched.h: 


ee ee 


#define_set_base (addr,base) W 用 base 设 置 addr， 参 看 2.9 节 段 描 述 
符 图 及 代码 注释 


_asm ("movw%%dx, %0\n\t"\ 
"rorl$16, %%edx\n\t"\ 
"movb%%dl, %1\n\t"\ 
"movb%%dh, %2"\ 

: "m" (* ( (addr) +2) ) , \ 
"m" (* ( (addr) +4) ) , \ 
"m" (* ( (addr) +7) ) , \ 


"d" (base) \ 


: "dx") 


ee ee 


base) 


ee ee 


#define_get_base (addr) ({V/ 获 取 addr 段 基 址 ， 参 看 _set_base， 
参看 2.9 世 段 描述 


// 符 图 及 代码 注释 


unsigned long__base; \ 

_asm ("movb%3, %%dh\n\t"\ 
"movb%2, %%dl\n\t"\ 

"shll$16, %%edx\n\t"\ 
"movw%l1, %%dx"\ 

: "=d" (__base) \ 

: "m" (* ( (addr) +2) ) , \ 
"m" (* ( (addr) +4) ) , \ 
"m" (* ( (addr) +7) ) ) ; \ 
__base; }) 

#define get_base (ldt) get base ( ( (char*) & (ldt) ) ) 
#define get_limit (segment)  ({\ 
unsigned long__limit; \ 


asm 
("“Isl%1, %0\n\tincl%0": "=r" (limit) : "r" (segment) sA 


// 取 segment 的 段 限 长 ， 给 _ limit 


_ limit; }) 


/代码 路 径 : kernel/fork.c: 


int copy_mem (int nrstruct task_struct * p) /设置 子 进程 的 代码 
段 、 数 据 段 及 创建 、 复 制 子 进 程 的 第 一 个 页 表 


{ 

unsigned long old_data_base,new_data_base,data_limit; 
unsigned long old_code_base,new_code_base,code_limit; 
/ 取 子 进程 的 代码 、 数 据 段 限 长 


code _limit=get_limit (OxOf) ; WOxofB 妈 1111: 代码 段 、LDT、3 特 
权 级 


data _limit=get_limit (0x17) ; /WOxl7 即 10111: 数据 段 、LDT、3 
特权 级 


/获取 父 进程 〈 现 在 是 进程 0) 的 代码 段 、 数 据 段 基 址 
old _code_base=get_base (current->ldt[1]) ; 

old _data_base=get_base (current->ldt[2]) ; 

if (old_data_base! =old_code_base) 

panic ("We don't support separate I& D") ; 

if (data limit< code limit) 


panic ("Bad data_limit") ; 


new _data_base=new_code_base=nr*0x4000000; /现在 nr 是 1 
0x4000000 是 64 MB 


p- > start_code=new_code_base; 


set base (p->ldt[1], new _code_ base) ; /设置 子 进 程 代码 段 基 
址 


set_base (p->ldt[2], new_data_base) ; /设置 子 进 程 数据 段 基 址 


if (copy_page_tables (old_data_base,new_data_base,data_limit) ) 


free page tables (new_data_base,data_limit) ; 
return-ENOMEM;; 


} 


return 0; 


} 


2. 为 进程 1 创建 第 一 个 页 表 并 设置 对 应 的 页 目 
KI 


在 Linux 0.11 中 ， 每 个 进程 所 属 的 程序 代码 执 
行 时 ， 都 要 根据 其 线性 地 址 来 进行 寻 址 ， 并 最 终 
映 喘 到 物理 内 存 上 。 通 过 图 3-9 我 们 可 以 看 出 ， 线 
性 地 址 有 32 位 ，CPU 将 这 个 线性 地 址 解析 成 “页 日 
RKM” > ARMAN m”; 页 目 永 项 存在 于 
页 目录 表 中 ， 用 以 管理 页 表 ; 页 表 项 存在 于 页 表 
中 ， 用 以 管理 页 面 ， 最 终 在 物理 内 存 上 找到 指定 
的 地 址 。Linux 0.11 中 仅 有 一 个 页 目 孙 表 ， 通 过 线 
性 地 址 中 提供 的 “页 目 邓 项 ”数据 整 可 以 找到 页 目 
杂 表 中 对 应 的 页 目录 项 ; 通过 这 个 页 目录 项 束 可 
以 找到 对 应 的 页 表 ; 之 后 ， 通 过 线性 地 址 中 提供 
的 “页 表 项 ”数据 ， 束 可 以 在 该 页 表 中 找到 对 应 的 
页 表 项 ; 通过 此 页 表 项 可 以 进一步 找到 对 应 的 物 
理 页面 ; 最 后 ， 通 过 线性 地 址 中 提供 的 “页 内 偏 
移 ” 落 实 到 实际 的 物理 地 址 值 。 


RHE Hh bt: 


HERE 


AESA 
p tl, Ae emit 
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图 3-9 线性 地 址 到 物理 地 址 映射 过 程 示意 图 


调用 copy_page_tables () RAY, ATI AS 
表 和 复制 页 表 ， 如 图 3-8 中 第 二 步 和 第 三 步 所 示 ， 
主意 其 中 页 目录 项 的 位 置 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_mem (int nr,struct task_struct * p) 


set _base (p->ldt[1], new_code_base) ; /设置 子 进 程 代码 段 基 
址 


set_base (p->ldt[2], new_data_base) ; /设置 子 进 程 数据 段 基 址 


个 页 表 、 复 制 进程 0 的 页 表 ， 设 置 进程 1 的 页 目 
KTH 


if (copy_page_tables (old_data_base,new_data_base,data_limit) ) 


free page tables (new_data_base,data_limit) ; 
return-ENOMEM;; 


} 


return 0; 


} 


进入 copy_page_tables () KUS, KJH 
页 表 申 请 一 个 空 内 页面， 并 把 进程 0 中 党 一 个 页 表 
里 面前 160 个 页 表 项 复制 到 这 个 页 面 中 (1 个 页 表 
项 控制 一 个 页 面 4KB 内 存 空间 ，160 个 页 表 项 可 
以 控制 640 KB 内 存 空间 ) 。 进 程 0 和 进程 1 的 页 表 


特 时 都 指名 了 相同 的 页 面 ， 意 味 着 进程 1 也 可 以 操 
作 进 程 0 的 页 面 。 之 后 对 进程 1 时 页 目 永 表 进 行 设 
置 。 最 后 ， 用 重 置 CR3 的 方法 刷新 页 变换 高 速 绥 
存 。 进 程 1 的 页 表 和 页 目录 表 设 置 完毕 。 


执行 代码 如 下 〈 为 了 更 容易 读 居 ， 我 们 在 源 
代码 中 做 了 比较 详细 的 注释 ) : 


/代码 路 径 : mm/memory.c: 
#define invalidate () \ 
asm ("movl%%eax, %%cr3": "a" (0) ) // 重 置 CR3 为 0 


int copy_page_tables (unsigned long from,unsigned long to,long 
size) 


{ 


unsigned long * from_page_table; 


unsigned long * to_page_table; 
unsigned long this_page; 
unsigned long * from_dir, *to_dir; 


unsigned long nr; 


/x*0x3ffff 是 4 MB， 是 一 个 页 表 的 管辖 艺 围 ， 二 进 制 是 22 个 1，|| 的 
两 边 必 须 同 为 0， 所 以 ，from 和 to 后 22 位 必须 都 为 0， 即 4 MB 的 整数 
倍 ， 意 思 是 一 个 页 表 对 应 4 MB 连续 的 线性 地 址 空间 必须 是 从 0x000000 
开始 的 4 MB 的 整数 倍 的 线性 地 址 ， 不 能 是 任意 地 址 开始 的 4MB， 才 
符合 分 页 的 要 求 */ 


if ( (from&Ox3fffff) || (toScOx3fffff) ) 
panic ("copy_page_tables called with wrong alignment") ; 


/* 一 个 页 目录 项 的 管理 范围 是 4 MB， 一 项 是 4 字 节 ， 项 的 地 址 就 
是 项 数 x4， 也 就 是 项 管理 的 线性 地 址 起 始 地 址 的 M 数 ， 比 如 : 0 项 的 地 
址 是 0， 管 理 范 围 是 0~4 MB，1 项 的 地 址 是 4， 管 理 范围 是 4~-8 MB, 
2 项 的 地 址 是 8， 管 理 范 围 是 8 一 12MB..……… > >20 就 是 地 址 的 MB 数 ， 
&0xffc 就 是 111111111100b， 就 是 4 MB 以 下 部 分 清 零 的 地 址 的 MB 
数 ， 也 就 是 页 目录 项 的 地 址 */ 


from _dir= (unsigned long *) ( (from> >20) & 
Oxffc) ; /*_pg_dir=0*/ 


to_dir= (unsignedlong*) ( (to> >20) &Oxffc) ; 


size= ( (unsigned) (size+Ox3fffff) ) > >22; /> >2274 MB 
7 
数 


for (; size-->0; from_dir++, to dir++) { 


if (1&*to_dir) 
panic ("copy_page_tables: already exist") ; 
if (! (1&*from_dir) ) 


continue; 


/*from_dir 是 页 目录 项 中 的 地 址 ，0xfffff000 人 此 是 将 低 12 位 清 堆 ， 
高 20 位 是 页 表 的 地 址 


from _page_table= (unsigned long *) (Oxfffff000&*from dir) ; 
if (! (to_page_table= (unsigned long *) get_free_page () ) ) 
return-1; /*Out of memory,see freeing*/ 


*to_dir= ( (unsigned long) to_page table) |7; //7 即 111， 参 看 
1.3.5 T ERE 


nr= (from==0) ?0xA0: 1024; /WOxA0 即 160， 复 制 页 表 的 项 数 ， 


for (; nr-->0; from_page_table++, to_page_table++) {// 复 制 父 
进程 页 表 


this _page=*from_page_table; 
if (! (1&this_page) ) 
continue; 


this_page&=~2; /设置 页 表 项 属性 ，2 是 010， 一 2 是 101， 代 表 
用 户 、 只 读 、 存 在 


*to_page_table=this_page; 


if (this_page>LOW_MEM) {//1 MB 以 内 的 内 核 区 不 参与 用 户 分 
页 管理 


*from_page_table=this_page; 

this _page-=LOW_MEM;; 

this _page > >=12; 

mem _map[this_page]++; /增加 引用 计数 ， 参 看 mem_init 
} 

} 


} 


invalidate () ; /用 重 置 CR3 为 0， 刷 新 "页 变换 高 速 缓存 " 
return 0; 


} 


进程 1 此 时 是 一 个 空 架子 ， 还 没有 对 应 的 程 
序 ， 它 的 页 表 又 征 从 进程 0 的 页 表 复 制 过 来 的 ， 它 
们 管理 的 页 面 完 全 一 致 ， 也 吏 是 它 暂 时 和 进程 0 共 


享 一 套 内 存 页 面 管理 结构 ， 如 图 3-10 所 示 。 等 将 
来 它 有 了 自己 的 程序 ， 再 把 关系 解除 ， 并 重新 组 
织 自己 的 内 存 管理 结构 。 


3-10 ”进程 0O 和 进程 1 共享 页 表示 意图 


3.1.5 “进程 1 共 吾 进程 0 的 文件 


返回 copy_process () 画 数 中 继续 调整 。 设 置 
task_struct 中 与 文件 相关 的 成 员 ， 包 括 打 开 了 哪些 
文件 p->filp[20]、 进 程 0 的 “当前 工作 目录 证 点 结 
构 ”、“ 根 目录 i 节点 结构 ”以 及 “执行 文件 i 节点 结 
构 ”。 虽然 进程 0 中 这 些 数值 还 都 是 空 的 ， 进 程 0 只 
具备 在 主机 中 正常 运算 的 能 力 ， 尚 不 具备 与 外 设 
以 文件 形式 进行 交互 的 能 力 ， 但 这 种 共享 仍 有 意 
义 ， 因 为 父子 进程 创建 机 制 会 把 这 种 能 力 “ 遗 
传 ” 给 子 进程 。 


对 应 的 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip, long cs,long eflags,long esp,long ss) 


ee 


return-EAGAIN; 


} 


for (i=0; i<NR_OPEN; i++) // 下 面 将 父 进 程 相关 文件 属性 的 引 
用 计数 加 1， 表 明 父 子 进程 共享 文件 


if (f=p->filp[i]) 

f- > f_count++; 

if (current-> pwd) 

current- > pwd- > i_count++; 
if (current-> root) 

current- > root- > i_count++; 


if (current-> executable) 


current- > executable- > i_count++; 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ ENTRY, & (p-> 
tss) ) ; /设置 GDT 中 与 子 进程 相关 的 项 ， 参 看 sched.c 


ee ee 


3.1.6 ”设置 进程 1 在 GDT 中 的 表 项 


后 把 进程 1 的 TSS 和 LDT， 挂 接 在 GDT 中 ， 
如 图 3-11 所 示 ， 注 意 进程 1 在 GDT 中 所 占 的 位 置 。 
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3-11 ”将 进程 1 的 task_struct 与 GDT 挂 接 


执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


current- > executable- > i_count++; 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ ENTRY, & (p-> 
tss) ) ; /设置 GDT 中 与 子 进程 相关 的 项 ， 参 看 sched.c 


set_Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; 


p-> state=TASK_RUNNING; /*do this last,just in case*/// 设 置 子 进 
NAS 


3.1.7 ”进程 1 处 于 就 绪 态 


将 进程 1 的 状态 设置 为 就 绪 仿 ， 使 它 可 以 参加 
进程 调度 ， 最 后 返回 进程 号 1°。 请 注意 图 3-11 中 间 
代表 进程 的 进程 条 ， 其 中 ， 进 程 1 已 处 在 殉 绪 态 。 
执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


ee 


p-> state=TASK_RUNNING; /*do this last,just in case*/// 设 置 子 进 
FENDAS 


return last_pid; 


} 


人 至此， 进程 1 的 创建 工作 完成 ， 进 程 1 已 经 基 
备 了 进程 0 的 全 部 能 力 ， 可 以 在 主机 中 正音 地 运 


A. 


(li 


进程 1 创建 完毕 后 ，copy_process () 画 数 执 


APT EE 
4 上 


于 完毕， 返回 sys_fork () 中 call_copy_process 
() 的 下 一 行 执行 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 
_sys_fork: 

call _find_empty_process 

testl %eax, Yeax 


js 1f 


push %gs 

pushl %esi 

pushl %edi 

pushl %ebp 

pushl %eax 

call _copy_process 


my 二 


addl $20, %esp//copy_process 返 回 至 此 ，esp+=20 就 是 esp 清 20 字 市 
的 栈 ， 也 就 是 清 前 面 压 的 gs >` esi > 


1: ret//edi ` ebp > eax, FER: 内核 栈 里 还 有 数据 。 返 回 
_system_call 中 的 pushl%eax 执 行 


清 _sys_fork 压 栈 的 5 个 寄存 器 的 值 ， 就 是 清 前 
TA RAY gs ` esi > edi ` ebp ` eax, thie 
copy_process () 的 前 5 个 参数 。 注 意 : eax 对 应 的 
是 copy_process () 的 第 一 个 参数 nr， 束 是 
copy_process () 的 返回 值 last_pid， 即 进程 1 的 进 


程 号 。 然 后 返回 _system_call 中 的 
call_sys_call_table (, %eax, 4) 的 下 一 行 
pushl%eax 处 继续 执行 。 


先 检查 当前 进程 是 否 是 进程 0。 HER: 
pushl%eax 这 行 代码 ， 将 3.1.6 廊 中 返回 的 进程 1 的 
进程 号 压 栈 ， 之 后 到 _ret_from_sys_call: 处 执 


Ss — 


ER 


执行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 


ee ee 


ee 


call _sys_call_table (, %eax, 4) 


pushl %eax#sys_fork 返 回 到 此 执行 ，eax 是 copy_process () 的 返回 
值 last_pid 


movl _current，%eax# 当 前 进程 是 进程 0 

cmpl $0, state (%eax) #state 

jne reschedule# 如 有 果 进 程 0 不 是 瓯 绪 态 ， 则 进程 调度 
cmpl $0, counter (%eax) #counter 

je reschedule# 如 有 果 进 程 0 没 有 时 间 上 请， 则 进程 调度 
ret _from_sys_call: 

movl _current, %eax#task[0]cannot have signals 


cmpl _task, %eax 


je 3 从 如 果 当 前 进程 是 进程 90，， 跳 到 下 面 的 3:， 处 执行 。 当 前 进程 是 
进程 0 1 


cmpw $0x0f,CS (%esp) #was old code segment supervisor? 
jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) , %ebx 


movl blocked (%eax) , %ecx 


notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx, signal (%eax ) 
incl %ecx 

pushl %ecx 

call _do_signal 


popl %eax 


3: popl9%eax# 如 果 是 进程 0， 则 直接 跳 到 这 个 地 方 执行 ， 将 7 个 寄 
存 絮 的 值 出 栈 给 CPU 


popl %ebx 
popl %ecx 
popl %edx 
pop %fs 


pop %es 


pop %ds 
iret 


#CPU 人 硬件 将 int 0x80 的 中 断 时 压 的 ss、esp、eflags、cs、eip 的 值 出 
栈 给 CPU 对 应 寄存 器 ，CS: EIP 指 向 fork () int 0x80 的 下 一 行 让 
(_res>=0) 处 执行 


由 于 当前 进程 是 进程 0， 所 以 就 跳 转 到 标号 3 
处 ， 将 压 栈 的 各 个 寄存 絮 数 值 还 原 。 图 3-12 表 示 
了 init_task 中 清 栈 的 这 一 过 程 。 值 得 注意 的 是 
popl9%eax 这 一 行 代码 ， 这 是 将 表面 刚刚 讲解 过 的 
pushl%eax 压 栈 的 进程 1 的 进程 号 ， 恢 复 给 CPU 的 
eax,eax 的 全 为 “1”。 


之 后 ，iret 中 断 退 回 ，CPU 和 硬件 目 动 将 int 
0x80 的 中 断 时 压 的 ss、esp、eflags、cs、eip 的 值 按 
压 栈 的 反 友 出 栈 给 CPU 对 应 寄存 器 ， 从 0 特权 级 的 


内 核 代码 转换 到 3 特权 级 的 进程 0 代码 执行 ，CS: 
EIP 指 向 fork () Hint 0x80 的 下 一 行 f (_res> 
=0) © 


对 应 的 执行 代码 如 下 : 


/代码 路 径 : include/unistd.h: 
int fork (void) 

long _ res; 

_ asm_ volatile ("int$0x80" 


: "=a" (res) /_ res 的 值 就 是 eax， 是 copy_process () 的 返回 值 
last_pid (1) 


"0" ( NR fork) ) ; 
if (_ res>=0) Wiret 后 ， 执 行 这 一 行 !__res 就 是 eax， 值 是 1 
return (int) res; /返回 11 


ermo--__ Tes; 


return-1; 


} 


在 讲述 执行 f (_res>=0) 前 ， 先 关注 一 
下 : "=a" (res) 。 这 行 代码 的 意思 是 将 _res 的 
值 赋 给 eax， 所 以 ff (_res>=0) 这 一 行 代码 ， 实 
际 上 就 是 判断 此 时 eax 的 值 是 多 少 。 我 们 刚刚 介绍 
了 ， 这 时 候 eax 里 面 的 值 是 返回 的 进程 1 的 进程 号 
1, return (type) _res 将 “1” 返 回 。 回 到 3.1.1 节 中 
fork O 画 数 的 调用 点 辽 (! fork () ) 处 执 
行 ，! 1 为 “ 假 >， 这 样 就 不 会 执行 到 init O 函数 
中 ， 而 是 进程 0 继续 执行 ， 接 下 来 就 会 执行 到 for 


(; ) pause () 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 

{ 

sti () ; 

move _to_user_mode () ; 


if (! fork O ) {/fork 的 返回 值 为 1，if (! 1) 为 假 /*we count on 
this going ok*/ 


init QO ; /不 会 执行 这 一 行 


ee ee 


for (; ) pause () ; /执行 这 一 行 ! 


图 3-12 形 象 地 表示 了 上 壕 过 程 。 
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3-12 ”操作 系统 如 何 区 分 进程 0 与 进程 1 


3.2 内核 第 一 次 做 进程 调度 


现在 执行 的 是 进程 0 的 代码 。 从 这 里 开始 ， 进 
程 0 准备 切换 到 进程 1 去 执行 。 


在 Linux 0.11 的 进程 调度 机 制 中 ， 通 第 有 以 下 
两 种 情况 可 以 产生 进程 切换 。 


1) 人 允许 进程 运行 的 时 间 结 束 。 


进程 在 创建 时 ， 痢 被 赋予 了 有 限 的 时 间 乒 ， 
以 保证 所 有 进程 每 次 剖 只 执行 有 有限 的 时 间 。 一 旦 
进程 的 时 间 片 被 前 减 为 0， 束 说 明 这 个 进程 此 次 执 
行 的 时 间 用 完了 ， 立 即 切 换 到 其 他 进程 去 执行 ， 
实现 多 进程 轮流 执行 。 


2) 进程 的 运行 停止 。 


当 一 个 进程 需要 等 待 外 设 提供 的 数据 ， 或 等 
待 其 他 程序 的 运行 结果 .……. 或 进程 已 经 执行 完毕 
时 ， 在 这 些 情况 下 ， 虽 然 还 有 剩余 的 时 间 厂 ， 但 
宇 进 程 不 再 具备 进一步 执行 鸭 “ 逻 辑 条 件 ” 了 。 如 
琳 还 等 看 时 钟 中 断 产 生 后 再 切换 到 别 的 进程 去 执 
行 ， 束 古 在 浪费 时 间 ， 应 立即 切换 到 其 他 进程 去 
执行 。 

这 两 种 情况 中 任何 一 种 情况 出 现 ， 部 会 导致 
进程 切换 。 

进程 0 角色 特殊 。 现 在 进程 0 切换 到 进程 1 既 有 


第 二 种 情况 的 意思 ， 又 有 仿 速 进程 鸭 意 思 。 我 们 
会 在 3.3.1 节 中 讲解 怠速 进程 。 


进程 0 执行 for (; ) pause () ， 最 终 执行 到 
schedule () 落 数 切换 到 进程 1， 如 图 3-13 所 示 。 
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图 3-13 进程 0 挂 起 并 执行 调度 程序 


pause 国 数 的 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 
static inline_syscall0 (int,fork) 
static inline_syscallO (int,pause) 


ee ee 


move _to_user_mode () ; 
if (! fork () ) {/*we count on this going ok*/ 


init © ; 


pause () 函数 的 调用 与 fork () 画 数 的 调用 
一 样 ， 会 执行 到 unistd.h 中 的 syscall0， 通 过 int 
0x80 中 断 ， 在 system_call.s 中 的 call_sys_call_table 
(, %eax, 4) 映射 到 sys_pause O 的 系统 调用 
函数 去 执行 ， 具 体 步 又 与 3.1.1 节 中 调用 fork () 
函数 步骤 类 似 。 略 有 差别 的 是 ，fork () 函数 是 
用 汇编 写 的 ， 而 sys_pause () 画 数 是 用 C 语 言 写 
的 。 


进入 sys_pause () 画 数 后 ， 将 进程 0 设置 为 可 
中 断 等 待 状态 ， 如 图 3-13 中 第 一 步 所 示 ， 然 后 调 
用 schedule () 画 数 进行 进程 切换 ， 执 行 代码 如 
下 : 


/代码 路 径 : kernel/sched.c: 


int sys_pause (void) 


{ 


// 将 进程 0 设置 为 可 中 断 等 待 状态， 如 采 产 生 某 种 中 断 ， 或 其 他 进 
程 给 这 个 进程 发 送 特定 信号 saat A AY BEBE ERE TAS EA 


current- > state=TASK INTERRUPTIBLE; 
schedule () ; 
return 0; 


} 


在 schedule () 画 数 中 ， 先 分 析 当 前 有 没有 必 
要 进行 进程 切换 ， 如 果 有 必要 ， 再 进行 具体 的 切 
换 操作 。 


百 先 依据 task[64] 这 个 结构 ， 第 一 次 届 历 所 有 
进程 ， 只 要 地 址 指针 不 为 至 ， 束 要 针对 它们 的 “ 报 
警 定 时 信 alarm” 以 及 “信号 位 图 signal” 进 行 处 理 

(我 们 会 在 后 续 章 和 详细 讲解 信号 ， 这 里 先 不 深 
究 ) 。 在 当前 的 情况 下 ， 这 些 处 理 还 不 会 产生 具 


体 的 效果 ， 尤 其 是 进程 0 此 时 并 没有 收 到 任何 信 
号 ， 它 的 状态 是 “可 中 断 等 待 状态 *， 不 可 能 转变 
为 < 就绪 态 ” 


第 二 次 灿 历 所 有 进程 ， 比 较 进程 的 状态 和 时 
间 厂 ， 找 出 处 在 束 绪 态 且 counter 最 大 的 进程 。 现 
在 只 有 进程 0 和 进程 1， 且 进程 0 是 可 中 断 等 竺 状 
仿 ， 不 是 殉 绪 企 ， 只 有 进程 1 处 于 网线 仿 ， 所 以 ， 
执行 switch_to (next) ， 切 换 到 进程 1 去 执行 ， 如 
图 3-14 中 的 第 一 步 所 示 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 
void schedule (void) 
{ 


int i,next,c; 


struct task_struct ** p; 


/*check alarm,wake up any interruptible tasks that have got a signal*/ 
for (p=&LAST_TASK; p> &FIRST_TASK; --p) 
if (*p) { 


if ( (*p) ->alam&& (*p) ->alarm<jiffies) {/ 如 果 设 置 了 定 
时 或 定时 已 过 


(*p) ->signall= (1< < (SIGALRM-1) ) ; /设置 SIGALRM 


(*p) ->alarm=0; /alarm 清 零 


if ( ( (*p) ->signal&~ (_BLOCKABLE& (*p) -> 
blocked) ) && 


JE 


(*p) ->state==TASK_INTERRUPTIBLE) /现在 还 不 是 这 种 情 
ue 


(*p) ->state=TASK_ RUNNING; 


/*this is the scheduler proper: */ 


while (1) { 


i=NR_TASKS; 
p=&task[NR_TASKS]; 
while (--i) { 

if (! *--p) 

continue; 


if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter> 
c) // 找 出 就 绪 态 中 counter 最 大 的 进程 


= (*p) - > counter,next=i; 
} 
if (c) break; 
for (p=&LAST_TASK; p> &FIRST_TASK; --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) -> priority; // BH counter=counter/2+priority 
} 


Switch _ to (next) ; 


/代码 路 径 : include/sched.h: 


//FIRST_TSS_ENTRY < <3 是 100000， ( (unsignedlong) n) < 
<4， 对 进程 1 是 10000 


1//_TSS (1) 就 是 110000， 最 后 2 位 特权 级 ， 左 第 3 位 GDT，110 是 6 
即 GDT 中 tss0 的 下 标 


#define_TSS (n) ( ( ( (unsignedlong) n) <<4) + 
(FIRST_TSS_ENTRY < <3) ) 


#define switch_to (n) {V/ 参 看 2.9.1 节 

struct{long a,b; } tmp; V/ 为 ljmp 的 CS、EIP 准 备 的 数据 结构 
_asm ("cmpl%%ecx, _current\n\t"\ 

"je 1fn"V 如 果 进 程 np 是 当前 进程 ， 没 必要 切换 ， 退 出 


"movw%%dx，%1n\t"V/EDX 的 低 字 赋 给 *& tmp.b， 即 把 CS 赋 


"xchgl%%ecx，_currentn\t"V/task[n] 与 task[current] 交 换 


"jmp%0n\t"V/Njmp 到 ”tmp，__tmp 中 有 偏 移 、 段 选择 符 ， 但 任务 
门 忽略 偏 移 


"cmpl%%ecx，_last_task_used_mathn\t"V/ 比 较 上 次 是 否 使 用 过 协 
处 理 器 


"jne 1f\n\t"\ 
"cltsn"V/ 清 除 CR0 中 的 切换 任务 标志 
"q; "\ 


: "m" (*&_tmp.a) , "m" (*&_tmp.b) ，V/.a 对 应 EIP (名 
He) ，.b 对 应 CS 


"d" (_TSS (n) ) , "œ ( (long) task[n]) ) ; WEDX 是 TSS n 的 
索引 号 ，ECX 即 task[n] 


} 


程序 将 一 直 执 行 到 "jmp%0n\t" 这 一 行 。ljmp 
通过 CPU 的 任务 | ] 机 制 并 未 实际 使 用 任务 | ]|， 将 
CPU 的 各 个 寄存 俩 值 体 存 在 进程 0 的 TSS 中 ， 将 进 
程 1 的 TSS 数 据 以 及 LDT 的 代码 段 、 数 据 段 描述 符 
数据 恢复 给 CPU 的 各 个 寄存 右 ， 实 现 从 0 特权 级 的 
内 核 代码 切换 到 3 特权 级 的 进程 1 代码 执行 ， 如 
3-14 中 的 第 二 步 所 示 。 
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第 二 步 : 准备 切换 到 进程 1 去 执行 第 步 : 经 过 两 次 所 历 选 择 了 进程 1 


T-----------------------------------------------------------------------------------------、 
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图 3-14 调度 进程 1 执行 


接 下 来 ， 轮 到 进程 1 执行 ， 它 将 进一步 构建 环 
境 ， 使 进程 能 够 以 文件 的 形式 与 外 设 交 互 


需要 提醒 的 是 ，pause () 函数 的 调用 是 通过 
int 0x80 中 断 从 3 特权 级 的 进程 0 代码 翻转 到 0 特权 
级 的 内 核 代码 执行 的 ， 在 _system_call 中 的 


call sys_call table (, %eax, 4) 中 调用 sys_pause 

O Ea, JffEsys_pause () 中 的 schedule () 中 
调用 switch O ， 在 switch () 中 ljmp 进 程 1 的 代码 
HÍT ° MÆ, switch O 中 ljmp 后 面 的 代码 还 没有 
执行 ，call_sys_call_ table (, %eax, 4) 后 续 的 代 
码 也 还 没有 执行 ，int 0x80 的 中 断 没有 返回 。 


3.3 ”轮转 到 进程 1 执行 


在 分 析 进 程 1 如 何 开始 执行 之 前 ， 先 回顾 一 下 
进程 0 创建 进程 1 的 过 程 。 


在 3.1.3 廊 中 讲解 调用 copy_process 函 数 时 曾 强 
调 过 ， 当 时 为 进程 1 设置 的 tss.eip 束 是 进程 0 调用 
fork () 创建 进程 1 时 int 0x80 中 断 导致 的 CPU 硬件 
自动 压 栈 的 ss、esp、eflags、cs、eip 中 的 EIP 值 ， 
这 个 值 指 癌 的 是 int 0x80 的 下 一 行 代码 的 位 置 ， 即 


if ( res>=0) 。 


前 面 讲述 的 j mp 通过 CPU 的 任务 门 机 制 自动 
将 进程 1 的 TSS 的 值 恢复 给 CPU， 自 然 也 将 其 中 的 
tss.eip 恢 复 给 CPU。 现 在 CPU 中 的 EIP 指 癌 的 束 古 


fork 中 的 证 〈 res> =0) 这 一 行 ， 所 以 ， 进 程 1 惑 
要 从 这 一 行 开 始 执行 。 


执行 代码 如 下 : 


// 代 码 路 径 : include/unistd.h: 

#define_syscall0 (type,name) \ 

int fork (void) 

{ 

long _ res; 

_asm_ volatile ("int$0x80" 
"0" ( NR fork) ) ; 


if (_res>=0) /现在 从 这 行 开始 执行 ，copy_process 为 进程 1 做 的 
tss.eip 就 是 指 问 这 一 行 


return (int) _ res; 


errno=-__ res; 


return-1; 


} 


回顾 前 面 3.1.3 广 中 的 介绍 可 知 ， 此 时 的 __res 
值 ， 就 古 进程 1 的 TSS 中 eax 的 值 ， 这 个 值 在 3.1.3 
节 中 被 写 死 为 0， 即 p- >tss.eax=0， 因 此 ， 当 执行 
到 return (type) res 这 一 行 时 ， 返 回 值 是 0， 如 
图 3-15 所 示 。 
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第 二 步 ， 跳 转 到 init 函 数 去 执行 ”第 一 步 ， 根据 eax 的 值 确定 返回 值 


进程 0 进程 1 


3-15 ”进程 1 开始 执行 的 状态 


返回 后 ， 执 行 到 main O 函数 中 让 (! fork 
O ) 这 一 行 ，! 0 为 “ 真 ”， 调 用 init O 函数 | 
执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


ee 


if (! fork O ) {/! OWE, 
init () ; /这 次 要 执行 这 一 行 ! 代码 跨度 比较 大 ， 请 参看 3.1.3 节 
} 


} 


进入 init () 函数 后 ， 先 调用 setup () KZ, 
执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void) 


setup ( (void*) S&drive_info) ; 


本 章 后 续 的 内 容 都 是 setup () 函数 实现 的 。 
文 个 函数 的 调用 与 fork () 、pause () 函数 的 调 
用 类 似 ; 略 有 区 别 的 是 setup O 画 数 不 是 通过 
_syscall0 () 而 是 通过 _syscalll () 实现 的 ， 具 体 
的 实现 过 程 基本 类 似 ， 也 是 通过 int 0x80 ` 


_system_call ` call_sys_call_table (, %eax, 4) ` 


sys_setup () ° 


提醒 : 前 面 pause () 函数 的 那个 int 0x80 中 
汤 还 没有 返回 ， 现 在 setup () 又 产生 了 一 个 中 


3.3.1 进程 1 为 安装 人 硬盘 文件 系统 做 准备 


这 一 万 的 内 容 涉及 sys_setup O 的 大 部 分 代 
码 ， 包 括 从 函数 开始 到 调用 rd_load O 之 前 的 所 
有 代码 ; 撤 术 路 线 比较 长 ， 代 码 很 多 ， 难 度 比较 
大 ，hash_table 的 部 分 尤其 如 此 。 但 这 部 分 代码 的 
目的 却 很 单一 ， 为 第 5 章 将 要 讲述 的 安装 人 硬盘 文件 
系统 做 准备 。 


这 个 过 程 大 概 经 过 3 个 步 又 ; 


1) 根据 机 天 系统 数据 设置 硬盘 参数 


2) 读 取 硬盘 引导 块 ; 


3) 从 引导 块 中 获取 信息 。 


1. 进 程 1 设置 便 盘 的 hd_info 


根据 机 器 系统 数据 中 的 drive_info， 如 硬盘 的 
柱 面 数 、 磁 头 数 、 刷 区 数 ， 设 置 内 核 的 hd_info， 
如 图 3-16 所 示 。 
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第 一 步 : 初始 化 hd_info 
硬盘 信息 控制 结构 


第 二 步 ， 用 hd_info 结 构 中 
的 数据 来 测算 出 硬盘 的 起 始 
扇 区 ， 以 及 益 的 扇 区 数 ， 并 
记录 在 hd 数据 结构 中 


图 3-16 初始 化 硬盘 控制 数据 结构 
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基体 的 执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 
struct hd_i_struct{ 


int head,sect,cyl,wpcom,|zone,ctl; 


ee ee 


struct hd_i_ struct hd_info[J={{0, 0, 0, 0, 0, O}, {0, 0, 0, O, 
0, O}}; 


Static struct hd_struct{ 

long start_sect; /起 始 耐 区 号 
long nr_sects; /总 而 区 数 
}hd[5*MAX_ HD]={{0, O}, }; 


/*This may be used only once,enforced by'static int callable'’*/ 


int sys_setup (void * BIOS) /对 比 调用 可 以 看 出 BIOS 就 是 
drive info, 582.17 


{ 

static int callable=1; 

int i,drive; 

unsigned char cmos_disks; 

struct partition * p; 

struct buffer_head * bh; 

if (! callable) /控制 只 调用 一 次 

return-1; 

callable=0; 

#ifndef HD_TYPE 

for (drive=0; drive<2; drive++) {// 读 取 drive_info 设 置 hd_info 
hd _info[drive].cyl=* (unsigned short *) BIOS; // 柱 面 数 

hd _info[drive].head=* (unsigned char *) (2+BIOS) ; RELF 
hd _info[drive].wpcom=* (unsigned short *) (5+BIOS) ; 

hd _info[drive].ctl=* (unsigned char *) (8+BIOS) ; 


hd _info[drive].lzone=* (unsigned short *) (12+BIOS) ; 


hd _info[drive].sect=* (unsigned char *) (14+BIOS) ; /每 磁道 


Jay XBL 


BIOS+=16; 
} 

if (hd_info[1].cyl) /判断 有 几 个 硬盘 
NR _HD=2; 

else 

NR _HD=1; 

#endif 


// 一 个 物理 硬盘 最 多 可 以 分 4 个 逻辑 盘 ，0 是 物理 盘 ，1~-4 是 逻辑 
共 5 个 ， 第 1 个 物理 盘 是 0*5， 第 2 个 物理 盘 是 1*5 


for (i=0; i<NR_HD; i++) { 

hd[i*5].start_sect=0; 
hd[i*5].nr_sects=hd_info[i].head* 

hd _info[i].sect * hd_info[i].cyl; 

} 

if ( (cmos_disks=CMOS_READ (0x12) ) &Oxf0) 


if (cmos_disks& OxOf) 


NR _HD=2; 

else 

NR _HD=1; 

else 

NR _HD=0; 

for (i=NR_HD; i<2; i++) { 
hd[i*5].start_sect=0; 
hd[i*5].nr_sects=0; 

} 


/第 1 个 物理 一 设 备 号 是 0x300， 第 2 个 是 0x305， 读 每 个 物理 人 硬盘 的 
0 号 块 ， 即 引导 块 ， 有 分 区 信息 


for (drive=0; drive <NR HD: drive++) { 

if (! (bh=bread (0x300+drive*5, 0) ) ) {// 
printk ("Unable to read partition table of drive%d\n\r", 
drive) ; 

panic ("") ; 


} 


2. 读 取 便 盘 的 引导 块 到 缓冲 区 


在 Linux 0.11 中 ， 和 硬盘 最 基础 的 信息 丈 是 分 区 
表 ， 其 他 信息 都 可 以 从 这 个 信息 引导 出 来 ， 这 个 
言 轧 所 在 的 块 吏 是 引导 块 。 一 块 硬盘 只 有 唯一 的 
一 个 引导 块 ， 即 硬盘 的 0 号 逻辑 块 。 引 导 块 有 两 个 
而 区 ， 真 正 有 用 的 是 第 一 个 面 区 。 我 们 议定 计算 
机 只 有 一 块 硬盘 。 下 面 把 硬盘 的 引导 块 恋 入 绥 冲 
区 ， 以 便 后 续 程 序 解读 引导 块 中 的 信息 。 这 个 工 
作 通 过 调用 bread () KEH, bread () 可 以 理 
解 为 block read ° 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 


// 第 1 个 物理 盘 设 备 号 是 0x300， 第 2 个 是 0x305， 读 每 个 物理 硬盘 的 
0 号 块 ， 即 引导 块 ， 有 分 区 信息 


for (drive=0; drive << NR_HD; drive++) { 

if (! (bh=bread (0x300+drive*5, 0) ) ) { 
printk ("Unable to read partition table of drive%d\n\r", 
drive) ; 


panic Gur) 


ee ee 


进入 bread () 函数 后 ， 先 调用 getblk () K 
数 ， 在 缓冲 区 中 申请 一 个 空闲 的 缓冲 块 。 


执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_ head * bread (int dev,int block) / 读 指 定 dev、block， 
第 一 块 硬盘 的 dev 是 0x300，block 是 0 


{ 
struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) /在 缓冲 区 得 到 与 dev、block 
相符 合 或 空闲 的 缓冲 块 


_ panic ("bread: getblk returned NULL\n") ; /现在 第 一 次 使 用 缓冲 
区 ， 不 可 能 没有 空闲 块 


if (bh->b_uptodate) /现在 是 第 一 次 使 用 ， 找 到 的 肯定 是 未 被 使 
用 过 的 


return bh; 

ll_rw_block (READ,bh) ; 
wait _on_buffer (bh) ; 

if (bh->b_uptodate) 
return bh; 

brelse (bh) ; 


return NULL; 


申请 空 朵 缓冲 块 的 主要 步 又 ， 在 多 3-17 中 已 
有 形象 的 说 明 。 以 下 将 结合 代码 来 深入 分 析 这 
过 程 。 
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到 3-17 查找 缓冲 块 


在 getblk () 芳 数 中 ， 先 调用 get_hash_table 
O 函数 查找 哈 希 表 ， 检 索 此 前 是 否 有 程序 把 现 
在 要 读 的 硬盘 逻辑 块 (相同 的 设备 号 和 块 号 ) 已 
经 读 到 缓冲 区 。 如 果 已 经 读 到 缓冲 区 ， 那 束 不 用 
再 费劲 从 人 硬盘 上 读 取 ， 直 接 用 现成 的 ， 如 图 3-17 
中 的 第 一 步 所 示 。 使 用 哈 布 表 进 行 查 询 的 目的 是 


提高 查询 速度 。 


执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


/在 缓 神 区 得 到 与 dev、block 相 符合 或 空 障 的 绥 冲 块 。dev: 
0x300 ` block: 0 


struct buffer_head * getblk (int dev,int block) 


{ 

struct buffer_head * tmp, *bh; 
repeat: 

if (bh=get_hash_table (dev,block) ) 
return bh; 

tmp=free_list; 

do{ 

if (tmp->b_count) 

continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 


break; 


ee 


进入 get_hash_table () 函数 后 ， 调 用 


find buffer () 函数 查找 缓冲 区 中 是 否 有 指定 设备 


Fo RERA o MRR ERIP, We 
HS 
执行 代码 如 下 : 


dev: 


块 


// 代 码 路 径 : fs/buffer.c: 


// 查 找 哈 布 表 ， 确 定 绥 促 区 中 是 否 有 指定 dev、block 的 缓冲 块 。 
0x300、block: 0 


struct buffer_head * get_hash_table (int dev,int block) 
{ 

struct buffer_head * bh; 

for (; ) { 

if (! (bh=fnd buffer (dev,block) ) ) 


return NULL; /现在 是 第 一 次 使 有 用， 肯定 没有 已 经 读 到 缓冲 区 的 


bh- > b_count++; 

wait _on_buffer (bh) ; 

if (bh->b_dev==dev& &bh->b_blocknr==block) 
return bh; 

bh- > b_count--; 

} 


} 


现在 是 第 一 次 使 用 缓 促 区 ， 绥 冲 区 中 不 可 能 
存在 已 读 入 的 组 种 块 ， 也 束 是 说 hash_table 中 没有 
挂 接任 何 节 点 ，find_buffer () 返回 的 一 定 是 
NULL ° 


执行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


H/NR_HASH 是 307， 对 于 dev: 0x300 ` block: 0 而 言 ，_ hashfn 
(dev,block) 的 值 是 154 


#define hashfn (dev,block) ( ( (unsigned) (devAblock) ) 
%NR_HASH) 


#define hash (dev,block) hash_table[_hashfn (dev,block) ] 
/在 组 神 区 查找 指定 dev、block 的 缓冲 块 

static struct buffer head * fnd_buffer (int dev,int block) 

{ 


struct buffer_head * tmp; 


for (tmp=hash (dev,block) ; tmp! =NULL; tmp=tmp-> 
b_next) /现在 tmp->b_next 为 NULL 


if (tmp->b_dev==dev& &tmp-> b_blocknr==block) 
return tmp; 
return NULL; 


} 


从 find_buffer () 、get_hash_table () KHOR 
出 后 ， 返 回 getblk O 函数 ， 在 空闲 表 中 申请 一 个 
BTA) Zs THER © MEMA RE ze AE TE 
末 表 中 的 ， 所 以 要 在 空 朵 表 中 申请 新 的 缓冲 块 ， 
如 图 3-17 中 的 第 二 步 所 示 。 


执行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( ( (bh) ->b_dirt<<1) + (bh) -> 
b_lock) /现在 b_dirt、b lock 是 0，BADNESS (bh) 就 是 00 


struct buffer_head * getblk (int dev,int block) 
{ 

struct buffer_head * tmp, *bh; 

repeat: 

if (bh=get_hash_table (dev,block) ) 


return bh; 


tmp=free_list; 

do{ 

if (tmp->b_count) /tmp->b_count 现 在 为 0 
Continue; 


if (! bhllBADNESS (tmp) <BADNESS (bh) ) //bh 现 在 为 0 


bh=tmp; 

if (! BADNESS (tmp) ) /现在 BADNESS (tmp) 是 00， 取 得 空 
闲 的 缓冲 块 ! 

break; 

} 


/*and repeat until we find something good*/ 

}while ( (tmp=tmp- >b next free) ! =free list) : 

if (! bh) {/ 现 在 不 会 出 现 没 有 获得 空闲 缓冲 块 的 情况 
sleep _on (&buffer_wait) ; 

goto repeat; 


} 


wait on buffer (bh) ; /缓冲 块 没 有 加 锁 


if (bh->b_count) /现在 还 没有 使 用 缓冲 块 


goto repeat; 


while (bh->b_dirt) {/ 缓 冲 块 的 内 容 没 有 被 修改 
sync_dev (bh->b_dev) ; 

wait _on_buffer (bh) ; 

if (bh->b_count) 

goto repeat; 

} 


if (find_buffer (dev,block) ) /现在 虽然 获得 了 空闲 缓冲 块 ， 但 并 
没有 挂 接 到 hash 表 中 


goto repeat; 


ee ee 


申请 到 缓冲 块 后 ， 对 它 进 行 初始 化 设置 ， 并 
将 这 个 空闲 块 挂 接 到 hash_table 上 。 执 行 代码 如 
Pe 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


ee 


if (find_buffer (devblock) ) 
goto repeat; 

bh->b_count=1; /占用 

bh- > b_dirt=0; 

bh- > b_uptodate=0; 

remove from queues (bh) ; 
bh- > b_dev=dev; 

bh- > b_blocknr=block; 

insert _into_queues (bh) ; 


return bh; 


为 了 更 容易 理解 代码 ， 我 们 将 这 个 过 程 分 步 
图 示 出 来 ， 如 图 3-18 所 示 。 


// 代 码 路 径 : fs/buffer.c: 


static inline void remove from queues (struct buffer_head * bh) 
{ 

/*remove from hash-queue*/ 

if (bh->b_next) /bh->b_next 现 在 为 NULL 

bh- > b_next- > b_prev=bh- > b_prev; 

if (bh->b_prev) /Wbh->b_prev 现 在 为 NULL 

bh- > b_prev- > b_next=bh- > b_next; 


if (hash (bh->b_dev,bh->b_blocknr) ==bh) /现在 不 出 现 这 个 情 
ih 


hash (bh->b_dev,bh->b_blocknr) =bh->b_next; 
/*remove from free list*/ 


if (! (bh->b_prev_free) ||! (bh->b_next_free) ) /正常 时 不 
会 出 现 


panic ("Free block list corrupted") ; 

bh- > b_prev_free- > b_next_free=bh- > b_next_free; 
bh- > b_next_free- > b_prev_free=bh- > b_prev_free; 
if (free_list==bh) 


free _list=bh- >b_next_free; 


初始 状态 


bh->b_next_free->b_prev_free 


bh->b_prov_free ——— st: 


bh ty next_free 


fi jir prev_[ree>b_next_free 


AAT FETAR 
bh>b_prev_free->b_next_free 


bir-h_prev_free->h_next_free = br) sert_fron 
blr Dbh_nest_free-Db_prev_free = b>b_ prev, fres 


bh >b_prev_free 


free list 


执行 下 而 代码 后 的 状态 


bh>b prev free>b_ next free 
free list = bh > b next free 


R] 


= 
3-18 WARNER 


R] 


挂 接 
直接 hash_table 的 执行 代码 如 下 ， 分 步 示意 
如 图 3-19 所 示 。 » DOIN 


执行 下 面 代码 后 的 状态 


thr hb _pext_free = free_list; 
th- 汕 prev free = free listr)b prev free: 
Tn ee ee Shee aat frat ~ bh; 


free istb prev free = bh>b_prev_freeb_next_free 


bh->b_prev_free-——— 
bh-b_next_free 
154 一 一 一 free_ list 
MILL bh a 
bh~>b_next_free->b_prev_free 


执行 完 下 面 代码 后 的 状态 


bhh prev = NULL; 
bhb next = NULL; 
if (tbh dev) 


return; 
bb next = hashhbli db dev,bb->b_hlocknr); 
hash(th—>b der, bhb blccknr) ~ bi; 


bh >h_next>b_peew = bir 


bh->b_prev_free->b_next_free 


NULL 


bi->b_prev_f 
bi->b_next_free 


O 


bh->b_next_free->b_prev_free 
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3-19 ”分 布 示 总 


// 代 码 路 人 径 : fs/buffer.c: 

static inline void insert_into_queues (struct buffer_head * bh) 
{ 

/*put at end of free list*/ 

bh- > b_next_free=free_list; 

bh- > b_prev_free=free_list- > b_prev_free; 

free _list- > b_prev_free- > b_next_free=bh; 

free _list- > b_prev_free=bh; 

/*put the buffer in new hash-queue if it has a device*/ 
bh- > b_prev=NULL; 

bh- > b_next=NULL; 

if (! bh->b_dev) 

return; 


bh->b_next=hash (bh->b_dev,bh->b_blocknr) ; 


hash (bh->b_dev,bh->b_blocknr) =bh; 


bh- > b_next- > b_prev=bh; 


ee ee 


执行 完 getblk () 函数 后 ， 返 回 bread () 画 
Zl e </p> 


3. 将 找到 的 缓冲 块 与 请 求 项 挂 接 


返回 bread O AUS, VARA rw block () 
这 个 函数 ， 将 缓冲 块 与 请 求 项 结构 拌 接 ， 如 图 3- 
20 所 示 。 
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Al 3-20 ”缓冲 块 与 请 求 项 挂 接 


执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * bread (int dev,int block) 
{ 

struct buffer_head * bh; 

if (! (bh=getblk (dev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) /新 申请 的 缓冲 区 肯定 没有 更 新 过 
return bh; 

ll_rw_block (READ,bh) ; 

wait _on_buffer (bh) ; 

if (bh->b_uptodate) 

return bh; 

brelse (bh) ; 

return NULL; 


} 


EAM rw_block () 函数 后 ， 先 判断 缓冲 块 
对 应 的 设备 是 否 存在 或 这 个 设备 的 请 求 项 函数 是 


否 挂 氢 正音 。 如 采 存 在 且 正 第 ， 说 明 可 以 操作 这 
个 缓冲 块 ， 调 用 make_request () PREM, YER KER 
冲 块 与 请 求 项 建立 天 系 ， 执 行 代 码 如 下 : 


/代码 路 径 : kernel/blk_dev/Il_rw_block.c: 
void ll_rw_block (int rw,struct buffer head * bh) 
{ 

unsigned int major; 


if ( (major=MAJOR (bh->b dev) ) > 
=NR_BLK_DEVIMWNR_BLK_DEV 是 7， 主 设备 号 0-6，> =7 香 味 着 不 存 
在 

! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-devicen\r") ; 

return; 

} 


make request (majorrw,bh) ; 


} 


进程 1 继续 执行 ， 进 入 make_request () HRY 
后 ， 先 要 将 这 个 缓 神 块 加 锁 ， 目 的 是 保护 这 个 组 
冲 块 在 解锁 之 前 将 不 再 被 任何 进程 操作 ， 这 是 因 
为 这 个 缓冲 块 现在 已 经 被 使 用 ， 如 果 此 后 再 被 挪 
作 他 用 ， 里 面 的 数据 就 会 发 生 混乱 。 如 图 3-20 石 
边 的 缓冲 块 buffer_head 所 示 ， 其 中 选中 的 那个 绥 
冲 块 对 应 的 buffer_head 已 加 锁 。 


之 后 ， 在 请 求 项 结构 中 ， 申 请 一 个 空 内 请 来 
项 ， 准 备 与 这 个 缓冲 块 相 挂 接 。 值 得 注意 的 是 ， 
如 果 是 读 请 求 ， 则 从 整个 请 求 项 结构 的 最 末端 开 
ATMA, 如 条 是 写 请 求 ， 则 从 整个 结 
构 的 2/3 处 ， 申 请 至 朵 请 求 项 。 这 走 因 为 从 用 户 使 
用 系统 的 心理 角度 讲 ， 用 户 更 布 望 访 取 的 数据 能 
更 快 地 显现 出 来 ， 所 以 给 读 取 操作 以 更 大 的 空 


间 。 这 时 候 ， 请 求 项 结构 十 第 一 次 被 使 用 ， 而 且 
尽 读 请 求 ， 所 以 在 请 求 项 结构 的 末 闹 找到 一 个 空 
则 的 请 求 项 ， 如 图 3-20 中 的 request[32] 结 构 所 示 ， 

其 中 的 最 后 一 项 已 倪 克 中 。 之 后 ， 绥 促 块 与 请 求 
项 正式 挂 接 ， 并 对 这 个 请 求 项 各 个 成 员 进 行 初 妨 
1 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/Il_rw_block.c: 

static inline void lock_buffer (struct buffer_head * bh) 
{ 

cli () ; 

while (bh->b_lock) /现在 还 没 加 锁 

sleep _on (&bh->b_wait) ; 

bh->b_lock=1; /加 锁 


sti () ; 


static void make_request (int major, int rw,struct buffer_head * bh) // 
{ 

struct request * req; 

int rw_ahead; 

/*WRITEA/READA is special case-it is not really needed,so if the*/ 
/*buffer is locked,we just forget about it,else it's a normal read*/ 

if (rw_ahead= (rw==READA\||rw==WRITEA) ) { 

if (bh->b_lock) /现在 还 没有 加 锁 

return ; 

if (rw==READA) /放弃 预 读 写 ， 改 为 普通 读 写 

rw=READ; 

else 

rw=WRITE; 

} 


if (rw! =READ& &rw! =WRITE) 


panic ("Bad block dev command,must be RIW/RA/WA") ; 
lock _buffer (bh) ; W 加 锁 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ& &bh-> 
b_uptodate) ) {/ 现 在 还 没有 使 用 


unlock buffer (bh) : 


return; 


repeat: 

/*we don't allow the write-requests to fill up the queue completely: 
*we want some room for reads: they take precedence. The last third 
*of the requests are only for reads. 

*/ 

if (rw==READ) // 读 从 尾 端 开始 ， 写 从 2/3 处 开始 
req=request+NR_ REQUEST:; 

else 

req=requestt ( (NR_ REQUEST*2) /3) ; 


/*find an empty request*/ 


while (--req>=request) /从 后 向 前 搜索 空闲 请 求 项 ， 在 
blk_dev_init 中 ，dev 初 始 化 为 -1， 即 空闲 


if (req->dev<0) /找到 空闲 请 求 项 

break; 

/*if none found,sleep on new requests: check for rw_ahead*/ 
if (req<request) { 

if (rw ahead) { 

unlock _buffer (bh) ; 

return; 

} 

sleep _on (&wait_for_request) ; 

goto repeat; 

} 

/*fill up the request-info,and add it to the queue*/ 
req- > dev=bh->b_dev; /设置 请 求 项 

req- > cmd=rw; 


req- > errors=0; 


req- > sector=bh- > b_blocknr< <1; 
req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 

req- > bh=bh; 

req- > next=NULL; 

add _request (major+blk_dev,req) ; 


} 


调用 add_request () 函数 ， 向 请 求 项 队列 中 
加 载 该 请 求 项 ， 进 入 add_request () 后 ， 先 对 当 
前 便 盘 的 工作 情况 进行 分 析 ， 人 然后 设置 该 请 求 项 
为 当前 请 求 项 ， 并 调用 硬盘 请 求 项 处 理 函 数 
(dev->request_fn) () ， 即 do_hd_request () 
函数 去 给 硬盘 发 送 读 盘 命令 。 图 3-21 中 给 出 了 请 


求 项 管理 结构 与 do_hd_request () 画 数 的 对 应 关 
系 o 


ee 0x9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


TP 


“请求 项 函数 控制 结构 
do hd request blk dev[7] 


通过 blk_dev 结 构 找 到 硬盘 请 求 
项 处 理 函数 ， 准 备 下 达 读 盘 命 令 


进程 0 进程 ] 


图 3-21 RR E ak Sch BR i BFE 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/IL_rw_block.c: 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


struct request * tmp; 
req- > next=NULL; 
di () ; 
if (req->bh) 
req- > bh- > b_dirt=0; 
if (! (tmp=dev- > current_request) ) { 
dev- > current_request=req; 
sti () ; 
(dev->request_fn) () ; //do_hd_request () 
return; 
} 


for (; tmp->next; tmp=tmp->next) /电梯 算法 的 作用 是 让 磁盘 
磁头 的 移动 距离 最 小 


if ( (IN_ORDER (tmp,req) || 
! IN_ORDER (tmp,tmp->next) ) && 


IN_ORDER (req,tmp-> next) ) 


break; 
req->next=tmp->next; / 挂 接 请 求 项 队列 
tmp- > next=req; 


sti () ; 


} 
Ah FS 


进入 do_hd_request () KAET, MER 
做 最 后 准备 工作 。 具 体 的 准备 过 程 如 图 3-22 所 
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Al 3-22 该 盘 操 作 前 的 主要 准备 工作 


先 通 过 对 当前 请 求 项 数据 成 员 的 分 析 ， 解 析 
出 需要 操作 的 磁头 、 忆 区 、 柱 面 、 操 作 多 少 个 局 
区 .…… 之 后 ， 建 立 便 盘 读 盘 必 要 的 参数 ， 将 磁头 
移动 到 0 柱 面 ， 如 图 3-22 中 第 二 步 所 示 ; La, Ft 
对 命令 的 性 质 ( 读 / 写 ) 给 硬盘 发 送 操作 命令 。 现 


在 是 读 操 作 〈 读 硬盘 的 引导 块 ) ， 所 以 接 下 求 要 
调用 hd_out O HOR PAR SAREE PRET 

令 。 注 意 看 最 后 两 个 实 参 ，WIN_READ 表 示 接 下 
来 要 进行 读 操 作 ，read_intr () 是 读 盘 操作 对 应 
WPT ARS AER, ATOR EAN EW A, E 
备 挂 授 ， 这 一 动作 反映 在 图 3-22 中 的 第 三 步 。 请 
注意 ， 这 是 通过 hd_out () KAEMA, ERA 
求 就 挂 接 read_intr () ; WARES, ANE 


read_intr () ， 而 是 write intr () T ° 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 
void do_hd_request (void) 


{ 


int ir; 


unsigned int block,dev; 

unsigned int sec,head,cyl; 

unsigned int nsect; 

INIT _REQUEST; 

dev=MINOR (CURRENT->dev) ; 
block=CURRENT- > sector; 

if (dev >=5*NR_HD]||block+2 >hd[dev].nr_sects) { 
end _request (0) ; 

goto repeat; 

} 

block+=hd[dev].start_sect; 

dev/=5; 


— asM_ 
("divl%4": "ed (block) "=d" (sec) . "o" (block) i wy (0) ' 


"r" (hd_info[dev].sect) ) ; 


__qsm 
("divl%4": v=qr (cyl) , "=d" (head) 。 "o" (block) f i (0) ; 


"r" (hd infofdev].head) ) ; 


sect+; 

nsect=CURRENT- > nr_sectors; 

if (reset) { 

reset=0; // 置 位 ， 防 止 多 次 执行 if (reset) 
recalibrate=1; // 置 位 ， 确 保 执行 下 面 的 if (recalibrate) 


reset_hd (CURRENT_DEV) ; // 将 通过 调用 hd_out 向 硬盘 发 送 
WIN_SPECIFY 命 令 ， 建 立 人 硬盘 读 盘 必要 的 参数 


return; 

} 

if (recalibrate) { 

recalibrate=0; // 置 位 ， 防 止 多 次 执行 if (recalibrate) 
hd_out (dev,hd_info[CURRENT_DEV].sect, 0, 0, 0, 


WIN _RESTORE, &recal_intr) ; /将 向 硬盘 发 送 WIN_RESTORE 
命令 ， 将 磁头 移动 到 0 柱 面 ， 以 便 从 硬盘 上 读 取 数据 


return 
} 
if (CURRENT->cmd==WRITE) { 


hd _ out (dev,nsect,sec,head,cyl,WIN_WRITE, Scwrite intr) ; 


for (i=0; i<3000&&! (r=inb_p (HD STATUS) & 
DRQ STAT) ; i++) 


/*nothing*/; 

if (lr { 

bad _rw_intr () ; 

goto repeat; 

} 

port write (HD_DATA,CURRENT-> buffer, 256) ; 
Jelse if (CURRENT->cmd==READ) { 


hd_out (dev,nsect,sec,head,cyl,WIN_READ, &read_intr) ; /注意 
这 两 个 参数 


}else 
panic ("unknown hd-command") ; 


} 


进入 hd_out () 函数 中 去 执行 读 盘 的 最 后 一 
步 : 下 达 读 盘 指 令 ， 如 图 3-23 中 人 第 一 步 所 示 。 
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执行 代码 如 下 : 


// 代 码 路 径 : kernel/blk_dev/hd.c: 


static void hd_out (unsigned int drive,unsigned int nsect,unsigned int 
sect, 


unsigned int head,unsigned int cyl,unsigned int cmd, 


void (*intr_addr) (void) ) /对比 调用 的 传 参 WIN _ READ, & 
read_intr 


{ 

register int port asm ("dx") ; 

if (drive > 1||head> 15) 

panic ("Trying to write bad sector") ; 
if (! controller_ready () ) 

panic ("HD controller not ready") ; 


do _hd=intr_addr; // 根 据 调 用 的 实 参 决定 是 read_intr 还 是 
write intr， 现 在 是 read_intr 


outb _p (hd_info[drive].ctLHD_CMD) ; 
port=HD_DATA; 

outb _p (hd_info[drive].wpcom > >2, ++port) ; 
outb _p (nsect, ++port) : 

outb_p (sect, ++port) ; 

outb_p (cyl, ++port) ; 

outb p (cyl>>8, ++port) ; 


outb p (OxA0| (drive< <4) |head, ++port) ; 


outb (cmd, ++port) ; 

} 

/代码 路 径 : kernel/system_call.s: 
_hd_interrupt: 

1: jmp 1f 

1: xorl%edx, %edx 

xchgl _do_hd, %edx 

testl %edx, Y%edx 

jne 1f 


movl $_unexpected_hd_interrupt, %edx 


其 中 ，do_hd=intr_addr;， 这 一 行 是 把 读 登 服 
务 程 序 与 硬盘 中 断 操 作 程序 相 挂 拔 ， 这 里 面 的 


do_hdz=system_call.s*#_hd_interrupt F H 
Xchgl_do_hd，9%edx 这 一 行 所 摘 述 的 内 容 。 


现在 要 做 读 盘 操作 ， 所 以 挂 接 的 束 古 实 参 
read intr, WReSH, ERA PDK ewrite_intr 
O ERY o 


PARE iS |! 


人 硬盘 开始 将 引导 块 中 的 数据 不 断 读 入 它 的 组 
存 中 ， 同 时 ， 程 序 也 返回 了 ， 将 会 沿 着 前 面 调 用 
的 反方 向 ， 即 hd_out () 函数 、do_hd_request 

() KZ > add_request () 函数 、make_request 
O 函数 、1Lrw_block () 画 数 ， 一 直 返 回 bread 
O 画 数 中 。 


现在 ， 硬 盘 正 在 继续 读 引 导 块 。 如 果 程 序 继 
续 执行 ， 则 需要 对 引导 块 中 的 数据 进行 操作 。 但 
这 些 数据 还 没有 从 硬盘 中 读 完 ， 所 以 调用 
wait_on_buffer () 函数 ， 挂 起 等 待 ! 


执行 代码 如 下 : 


// 代 码 路 人 径 : fs/buffer.c: 

struct buffer head * bread (int dev,int block) 
{ 

struct buffer_head * bh; 

if (!  (bh=getblk (dev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 

return bh; 

ll_rw_block (READ,bh) ; 


wait __on_buffer (bh) ; // 将 等 竺 缓冲 块 解锁 的 进程 挂 起 


if (bh->b_uptodate) 
return bh; 

brelse (bh) ; 

return NULL; 


} 


进入 wait_on_buffer O 函数 后 ， 判 断 刚 才 申 
请 到 的 缓冲 块 是 否 被 加 锁 。 现 在 ， 缓 冲 块 确实 加 
锁 了 ， 调 用 sleep_on () 郴 数 。 如 图 3-24 中 的 第 二 
步 所 示 。 执 行 代码 如 下 : 


// 代 码 路 人 径 : fs/buffer.c: 

static inline void wait_on_buffer (struct buffer head * bh) 
{ 

cli () ; 

while (bh->b_lock) /前 面 已 经 加 锁 


sleep _on (&bh->b_wait) ; 
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— s: s 的 


第 一 步 ， 关 中断 
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schedule | pas 
第 四 步 : 热 硬盘 还 在 不 断 读 入 数据 
行进 程 调度 一 


iit 


进程 0 进程 1 
| 可 中 断 等 待 状态 | 可 中 断 等 待 状态 


当前 进程 
第 三 步 ， 进程 1 挂 起 


图 3-24 进程 1 挂 起 并 执行 调度 


进入 sleep_on () 函数 后 ， 将 进程 1 设置 为 不 
可 中 断 等 待 状态 ， 如 图 3-24 中 第 三 步 所 示 ， 进 程 1 


挂 起 ， 然 后 调用 schedule () 郴 数 ， 准 备 进程 切 
换 ， 执 行 代 码 如 下 : 


/代码 路 径 : kernel/sched.c: 

void sleep_on (struct task_struct ** p) 
{ 

struct task_struct * tmp; 

if (! p) 

return; 

if (current==& (init_task.task) ) 
panic ("task[O]trying to sleep") : 
tmp="p; 

*p=current; 

current- > state=TASK_UNINTERRUPTIBLE; 
schedule () ; 

if (tmp) 


tmp- > state=0; 


5. 等 竺 硬盘 读数 据 时 ， 进 程 调度 切换 到 进程 0 
执行 


进入 schedule () KUA, RNEER 
行 。 图 3-25 给 出 了 切换 过 程 的 主要 步骤 。 


oe, Ox9FFFF OxFFFFF Ox3FFFFF 0xSFFFFF OxFFFFFF 
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第 一 步 : 开 中 断 ， 由 于 每 个 


进程 有 独立 的 EFLAG 标志 位 
i i schedule 
1 switch_to 
un D 
接着 刚才 进程 0 的 切换 点 的 下 一 条 指令 继续 执行 Dr 
“cmpl %%ecx, last task used math\n\t"\ ， 硬盘 还 在 不 断 读 入 数据 
第 三 步 ， 执行 进程 调度 fi it e.. 
rs re cay ee RN 
进程 0 进程 1 


| teak | hi 


i 当前 进程 
| 第 二 BH: WR BUFO 


3-25 ”切换 到 进程 0 去 执行 


具体 执行 步 又 在 3.2 下 中 已 经 说 明 。 但 第 二 次 
遍历 task[64] 的 上 时候， 与 3.2 太 中 执行 的 结果 不 一 
样 。 此 时 只 有 两 个 进程 ， 进 程 0 的 状态 是 可 中 断 等 
待 状态 ， 进 程 1 的 状态 也 已 经 刚刚 被 设 置 成 了 不 可 
中 断 等 竺 状态。 第 规 的 进程 切换 条 件 是 ， 剩 余 时 
间 片 最 多 且 必 须 是 就 绪 态 ， 即 代码 “if ( (ep) -> 
state==TASK_RUNNING& & (*p) ->counter> 
c) ”给 出 的 条 件 。 现 在 两 个 进程 都 不 是 就 绪 态 ， 
按照 剃 规 的 条 件 无 法 切换 进程 ， 没 有 进程 可 以 执 


fa.” 


he PSE PS OATS, ° 


操作 系统 的 设计 着 对 这 种 状态 的 解决 方案 


re: 强行 切换 到 进程 0! 


注意 : c 的 值 将 仍然 是 -1， 所 以 next 仍 然 是 0， 


这 个 next 吏 是 要 切换 到 进程 的 进程 号 。 可 以 看 
出 ， 如 琳 没 有 合适 的 进程 ，next 的 数值 将 水 远古 


0 ’ 
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执行 代码 如 下 : 


// 代 码 路 人 径 : kernel/sched.c: 


void schedule (void) 


ee 


cnext=0; 


ci=NR_TASKS; 

cp=task[NR_TASKS]; 

cwhile (--i) { 

cif (! *--p) 

continue; 

if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 

c= (*p) - > counter,next=i; 

} 

if (c) break; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) 

if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) - > priority; 

} 


switch to (next) ; next 是 0! 


调用 switch_ to (0) 执行 代码 如 下 : 


// 代 码 路 径 : kernel/sched.h: 

#define switch_ to (n) {\ 

struct{long a,b; } tmp; \ 

_ asm_ ("cmpl%%ecx, _current\n\t"\ 
"je 1f\n\t""\ 

"movw%%dx, %1\n\t"'\ 


"xchgl%%ecx, _current\n\t"\ 


"jjmp%0Nxt"V 跳 转 到 进程 0， 参 看 3.2 节 中 有 关 switch_to (n) 的 讲 
解 及 代码 解释 


"cmpl%%ecx, _last_task_used_math\n\t"\ 

"jne 1f\n\t"\ 

"clts\n"\ 

sela 

: "m" (*& tmp.a) , "m" (*& tmp.b) , \ 


"d" (_TSS (n) ) , "œ" ( (long) task[n]) ) ; \ 


switch_to (0) 执行 完 后 ， 已 经 切换 到 进程 0 
去 执行 。 前 面 3.2 节 中 已 经 说 明 ， 当 时 进程 0 切换 
到 进程 1 时 ， 是 从 switch_to (1) 的 由 jmp%0Nxt" 这 
一 行 切换 走 的 ，TSS 中 保存 当时 的 CPU 所 有 寄存 
器 的 值 ， 其 中 CS、EIP 指 向 的 就 是 它 的 下 一 行 ， 
所 以 ， 现 在 进程 0 要 从 "cmpl%%ecx， 
_last_task_used_mathn\t”* 这 行 代 码 开始 执行 ， 如 
图 3-25 中 的 第 三 步 所 示 。 


将 要 执行 的 代码 如 下 : 


/代码 路 径 : kernel/sched.h: 
#define switch to (n) {\ 
struct{long a,b; } tmp; 


asm__  ("cmpl%%ecx, _current\n\t"\ 


"je 1f\n\t"\ 

"movw%%dx, %1\n\t'"'\ 
"xchgl%%ecx, _current\n\t"\ 
"ljmp%0\n\t'"\ 


"cmpl%%ecx，_last_task_used_mathn\t"V/ 从 这 一 行 开始 执行 ， 此 
时 是 进程 0 在 执行 ，0 特 权 级 


"jne 1f\n\t"\ 


"clts\n"\ 


"m" (*& tmp.a) , "m" (*&_tmp.b) , \ 


"d" (TSS (n) ) , "œ ( (long) task[n]) ) ; \ 


回顾 3.2 节 ， 当 时 进程 0 切换 到 进程 1 是 从 pause 
() » SYS_pause () > schedule () 、switch to 
(1) 这 个 调用 路 线 执 行 过 来 的 。 现 在 ，switch_to 


(1) 后 半 部 分 执行 完毕 后 ， 了 吏 应 该 返回 sys_pause 
() >for (; ) pause () 中 执行 了 。 


pause 这 个 函数 将 在 for G ) 这 个 循环 里 面 被 
反复 调用 ， 所 以 ， 会 继续 调用 schedule 函 数 进行 进 
程 切 换 。 而 再 次 切换 的 时 候 ， 由 于 两 个 进程 还 都 
不 是 就 绪 态 ， 按 照 前 面 讲述 过 的 理由 ， 当 所 有 进 
程 都 挂 起 的 时 候 ， 内 核 会 执行 switch_to 强 行 切 换 
到 进程 0 。 


现在 ，switch_to 中 情况 有 些 变 
I£, “cempl%%ecx, _current\n\t’“je 1f\n\t” 的 意思 
E: 如 有 果 切 换 到 的 进程 丈 是 当前 进程 ， 怠 跳 转 到 
下 面 的 *1: ?处 直接 返回 。 此 时 当前 进程 正 是 进程 
0， 要 切换 到 的 进程 也 是 进程 0， 正 好 符合 这 个 条 
tae 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void main (void) 


for (; ) pause () ; 

} 

/代码 路 径 : kernel/sched.h: 

#define switch to (n) {\ 

struct{long a,b; } tmp; \ 

_asm_ _ ("cmpl%%ecx, _current\n\t"\ 
"je 1f\n\t""\ 

"movw%%dx, %1\n\t'"'\ 
"xchgl%%ecx, _current\n\t"\ 
"|jmp%0\n\t"\ 


"cmpl%%ecx, _last_task_used_math\n\t"\ 


"jne 1f\n\t"\ 


"clts\n"\ 


: "m" (*& tmp.a) , "m" (*&__tmp.b) , \ 


"d" (TSS (n) ) , "œ ( (long) task[n]) ) ; \ 


所 以 ， 又 回 到 进程 0 GER: 不 是 切换 到 进程 


人 循环 块 行 这 个 动作 ， 如 图 3-26 所 示 。 


从 这 里 可 以 看 出 操作 系统 的 设计 者 为 进程 0 设 
计 的 特殊 职能 : 当 所 有 进程 都 挂 起 或 没有 任何 进 
程 执行 的 时 候 ， 进 程 0 网 会 出 来 维持 操作 系统 的 基 
本 运转 ， 等 每 挂 起 的 进程 具备 可 执行 的 条 件 。 业 
内 人 二 也 称 进程 0 为 仿 速 进程 ， 很 像 维持 汽车 等 待 


要 驶 员 踩 油门 的 念 速 状态 那样 维护 计算 机 的 念 速 
状态 。 

注意 : 硬盘 的 读 写 速度 远 低 于 CPU 执行 指令 
的 速度 (2 一 3 个 量 级 ) 。 现 在 ， 硬 盘 仍 在 忙 着 把 
指定 的 数据 读 到 它 的 缓存 中 ..…...…. 
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cr eet ee 
进程 0 进程 1 
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Al 3-26 进程 0 的 循环 执行 过 程 


6. 进 程 0 执行 过 程 中 发 生 便 盘 中 断 


循环 执行 了 一 段 时 间 后 ， 硬 盘 在 某 一 时 刻 把 
一 个 面 区 的 数据 读 出 来 了 ， 产 生硬 盘 中 朵 。CPU 
接 到 中 断 指令 后 ， 终 止 正在 执行 的 程序 ， 终 止 的 
位 置 肯定 是 在 pause () 、sys_pause () ` 
schedule () 、switch_ to (n) 循环 里 面 的 某 行 指 
令 处 ， 如 图 3-27 中 的 第 一 步 所 示 。 
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hd_interrupt jread intr 


第 一 步 ， 硬 盘 中 断 产生 ， 硬 
盘 中 断 服务 程序 开始 执行 


硬盘 还 在 不 断 读 出 数据 


第 二 步 ， 将 数据 载 入 指定 缓冲 块 中 
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图 3-27 MEN Aa Ach aT RE 


然后 转 去 执行 硬盘 中 断 服务 程 序 。 执 行 代码 
如 下 : 


/代码 路 径 : kernel/system_call.s: 


_hd_interrupt: 
pushl %eax// 保 存 CPU 的 状态 
pushl %ecx 

pushl %edx 

push %ds 

push %es 

push %fs 

movl $0x10, %eax 
mov %ax, %ds 
mov %ax, %es 
movl $0x17, %eax 
mov %ax, %fs 
movb $0x20, %al 
outb %al, $0xA0 
jmp 1f 

1: jmp 1f 


1: xorl%edx, %edx 


xchgl _do_hd, %edx 

testl %edx, Y%edx 

jne 1f 

movl $_unexpected_hd_interrupt, %edx 
1: outb%al, $0x20 


call*%edx 


Alms J HT Bois ess ` esp ` eflags ` cs ` 
eip， 便 一 中 断 服 务 程序 的 代码 接着 将 一 些 寄存 器 
的 数据 压 栈 以 保存 程序 的 中 断 处 的 现场 。 之 后 ， 
执行 _do_hd 处 的 读 副 中 断 处 理 程序 ， 对 应 的 代码 
应 该 是 call*9%edx 这 一 行 。 这 个 edx 里 面 是 读 盘 中 
断 处 理 程序 read_intr 的 地 址 ， 参 看 hd_out () HAY 
的 讲解 及 代码 注释 。 


read_intr () 画 数 会 将 已 经 读 到 硬盘 缓存 中 
的 数据 复制 到 刚才 被 锁定 的 那个 缓冲 块 中 QE 
B: 锁定 是 阻止 进程 方面 的 操作 ， 而 不 是 阻止 外 
设 方面 的 操作 ) ， 这 时 1 个 扇 区 256 字 (512 字 节 ) 
的 数据 读 入 前 面 申 请 到 的 缓冲 块 ， 如 图 3-27 中 的 
第 二 步 所 示 。 执 行 代 码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 
static void read_intr (void) 

{ 

if (win_result () ) { 

bad _rw_intr () ; 

do hd request () ; 

return; 

} 


port_read (HD_DATA,CURRENT-> buffer, 256) ; 


CURRENT- > errors=0; 
CURRENT- > buffer+=512; 
CURRENT- > sector++; 

if (--CURRENT->nr sectors) { 
do _hd=&read_intr; 

return; 

} 

end _request (1) ; 

do _hd_request () ; 


} 


但 是 ， 引 导 块 的 数据 是 1024 字 节 ， 请 求 项 要 
求 的 也 是 1024 字 方 ， 现 在 仅 恋 出 了 一 半 ， 人 硬盘 会 
继续 读 副 。 与 此 同时 ， 在 得 知 请 求 项 对 应 的 缓冲 
块 数据 没有 读 完 的 情况 下 ， 内 核 将 再 次 把 


read_intr () 绑 定 在 硬盘 中 断 服 务 程序 上 ， 以 竺 
下 次 使 用 ， 之 后 中 断 服务 程序 返回 。 


进程 1 仍 处 在 被 挂 起 状态 ，pause () > 
sys_pause () 、schedule () 、switch to (0) 4% 
环 从 刚才 硬盘 中 断 打 断 的 地 方 继续 循环 ， 人 硬盘 继 


整个 过 程 如 图 3-28 所 示 。 
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第 一 步 : sys_pause 不 断 循环 


当前 进程 仍然 是 进程 0 
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硬盘 还 在 不 断 读 入 数据 
第 二 步 : 进程 调度 处 理 OO ————— 
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图 3-28 进程 0 继续 循环 执行 


又 过 了 一 段 时 间 后 ， 硬 强 琵 下 的 那 一 半数 据 
也 读 完 了 ， 硬 盘 产 生 中 断 ， 读 盘 中 断 服务 程序 再 
次 响应 这 个 中 断 ， 进 入 read_intr () KUA, M 
然 会 判断 请 求 项 对 应 的 缓冲 块 的 数据 是 否 读 完 
了 ， 对 应 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 


Static void read_intr (void) 


这 次 已 经 将 请 求 项 要 求 的 数据 量 全 部 读 完 


了 ， 经 检验 确认 完成 后 ， 不 执行 if 里 面 的 内 容 


了 ， 跳 到 end_request () 范 数 去 执行 ， 如 图 3-29 
中 read_intr () 这 个 函数 所 示 。 
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图 3-29 再 次 啊 应 硬盘 中 断 并 唤醒 进程 1 


进入 end_request () 后 ， 由 于 此 时 缓冲 块 的 
内 容 已 经 全 部 读 进 来 了 ， 将 这 个 缓冲 块 的 更 狐 标 
志 b_uptodate 置 1， 说 明 它 可 用 了 ， 执 行 代码 如 
下 : 


/代码 路 径 : kernel/blk_dev/blk.h: 

extern inline void end_request (int uptodate) 

{ 

DEVICE _OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 

CURRENT- > bh-> b_uptodate=uptodate; Wuptodate 是 参数 ， 为 1 
unlock _buffer (CURRENT->bh) ; 

} 

if (! uptodate) { 

printk (DEVICE_NAME"I/O errorn\r") ; 

printk ("dev%04x,block%d\n\r", CURRENT-> dev, 
CURRENT->bh->b_blocknr) ; 

} 

wake up (&CURRENT-> waiting) ; 

wake _up (&wait_for_request) ; 

CURRENT- > dev=-1; 


CURRENT=CURRENT- > next; 


之 后 ， 调 用 unlock_buffer () 画 数 为 缓冲 块 
解锁 。 在 unlock_buffer () 画 数 中 调用 wake_up 
O 画 数 ， 将 等 待 这 个 缓冲 块 解锁 的 进程 (进程 
1) 唤醒 (设置 为 束 绪 态 ) ， 并 对 刚刚 使 用 过 的 请 
求 项 进行 处 理 ， 如 将 它 对 应 的 请 求 项 设置 为 空 
闲 ..…... 执 行 代 码 如 下 : 


/代码 路 径 : kernel/blk_dev/blk.h: 

extern inline void unlock_buffer (struct buffer_head * bh) 

{ 

if (! bh->b_lock) 

printk (DEVICE_NAME": free buffer being unlocked\n") ; 
bh- > b_lock=0; 

wake up (&bh->b_wait) ; 


} 


/代码 路 径 : kernel/sched.c: 
void wake_up (struct task_struct ** p) 
{ 
if (p& &*p) { 

(**p) .state=0; /设置 为 就 绪 态 
*p=NULL; 
} 


} 


AEE PSA ZAR hate eA Ma | SR 
的 工作 结束 后 ， 计 算 机 在 pause () » sys_pause 
() 、schedule () 、switch_to (0) 循环 中 继续 
执行 ， 如 图 3-29 中 第 三 步 所 示 。 


7. 读 盘 操 作 完 成 后 ， 进 程 调度 切换 到 进程 1 执 


现在 ， 引 导 块 的 两 个 而 区 已 经 载 入 内 核 的 组 
冲 块 ， 进 程 1 已 经 处 于 就 绪 态 。 注 意 : 虽然 进程 0 
一 直 参 与 循环 运行 ， 但 它 是 非 就 绪 态 。 现 在 只 

进程 0O 和 进程 1， 当 循环 执行 到 schedule 芳 数 时 融会 
切换 进程 1 去 执行 。 该 过 程 如 图 3-30 所 示 。 
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图 3-30 切换 到 进程 1， 并 返回 sys_setup 


切换 到 进程 1 后 ， 进 程 1 从 下 面 的 代码 继续 执 


行 : 


// 代 码 路 径 : kernel/sched.h: 
#define switch_ to (n) {\ 
struct{long a,b; } tmp; \ 
_asm ("cmpl%%ecx, _current\n\t"\ 
"je 1f\n\t""\ 

"movw%%dx, %1\n\t'"'\ 
"xchgl%%ecx, _current\n\t"\ 
"|jmp%0\n\t'"\ 


"cmpl%%ecx，_last_task_used_mathn\t"V/ 理 由 和 前 面 讲 述 的 
switch_to 一 样 


"jne 1f\n\t"\ 
"clts\n"\ 
"41. "\ 


: "m" (*&_tmp.a) , "m" (*&__tmp.b) , \ 


"d" (_TSS (n) ) , "œ ( (long) task[n]) ) ; \ 


可 以 看 出 ， 所 有 进程 则 的 切换 都 是 这 个 模 
P 


S 所 以 现在 
执行 它 的 下 一 行 。 现 在 ， 返 回 切换 的 发 起 着 
sleep_on () 函数 中 ， 并 最 终 返 回 bread () 函数 
中 。 在 bread () 函数 中 判断 缓冲 块 的 b_uptodate 
标志 已 被 设置 为 1， 直 接 返 回 ，bread () 函数 执 

了 完毕 。 执 行 代 码 如 下 : 


/代码 路 径 : fs/buffer.c: 
struct buffer_head * bread (int dev,int block) 
{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 

return bh; 

ll_rw_block (READ,bh) ; 

wait _on_buffer (bh) ; 

if (bh->b_uptodate) 

return bh; 

brelse (bh) ; 

return NULL; 


} 


回 到 sys_setup 函 数 继续 执 行 ， 处 理 便 盘 引 导 
块 载 入 缓冲 区 后 的 事务 。 绥 冲 块 里 面 淡 载 看 便 盘 
的 引导 块 的 内 容 ， 先 来 判断 硬盘 信息 有 效 标 
志 '55AA'。 如 来 第 一 个 局 区 的 最 后 2 子 太 不 


尽 '55AA'， 束 说 明 这 个 司 区 中 的 数据 是 无 效 的 
(我 们 假设 引导 块 的 数据 没有 问题 。 执 行 代码 
uF: 


/代码 路 径 : kemel/blk_dev/hd.c: 


int sys_setup (void * BIOS) 


for (drive=0; drive < NR_HD; drive++) { 

if (! (bh=bread (0x300+drive*5, 0) ) ) { 
printk ("Unable to read partition table of drive%d\n\r", 
drive) ; 

panic ("") ; 

} 


f (bh->b_data[510]! =0x55|| (unsigned char) // 我 们 假设 引导 块 
的 数据 没 六 是 


bh->b_data[511]! =OxAA) { 


printk ("Bad partition table on drive%d\n\r", drive) ; 
panic (uur) ; 
} 


p=0x1BE+ (void *) bh->b_data; // 根 据 引 导 块 中 的 分 区 信息 设置 
hd[] 


for (i=1; i<5; i++, p++) { 
hd[it+5*drive].start_sect=p- > start_sect; 
hd[i+5*drive].nr_sects=p- > nr_sects; 

} 

brelse (bh) ; /释放 缓冲 块 (引用 计数 减 1) 
} 

if (NR_HD) 


printk ("Partition table%s ok.\n\r", (NR_HD>1) ?"s": "") ; 


ee 


， 利 用 从 引导 块 中 采集 到 的 分 区 表 信 息 
来 设置 hd[]， 如 图 3-31 所 示 。 


oe EE OxFFFFF Ox3FFFFF 0x5FFFFF OxFFFFFF 


ee 
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Al 3-31 利用 引导 块 必 置 便 盘 分 区 管理 结构 


读 引 导 块 的 绥 冲 块 已 经 完成 使 命 ， 调 用 brelse 
O 画 数 释放 ， 以 便 以 后 继续 程序 使 用 。 


根据 硬盘 分 区 信息 设置 hd[]， 为 第 5 草 安 逆 便 
副 文 件 系 统 做 准备 的 工作 痢 已 完成 。 下面 ， 我 们 
将 介绍 进程 1 用 虚拟 盘 蔡 代 软 型 使 之 成 为 根 设备 ， 
为 加 载 根 文件 系统 做 准备 。 


3.3.2 ”进程 1 格式 化 虚拟 强 并 更 换 根 设备 
为 虚拟 副 


第 2 章 的 2.3 玫 设置 了 虚拟 盘 罕 间 并 初始 化 。 
那 时 的 虚拟 盘 只 是 一 块 * 日 一 ”， 疝 未 经 过 类 似 “ 格 
式 化 ”的 处 理 ， 还 不 能 当做 一 个 块 设备 使 用 。 格 式 
化 所 用 的 信息 就 在 boot 操 作 系 统 的 软盘 上 。 第 1 章 
讲解 过 ， 第 一 个 而 区 是 bootsect， 后 面 4 个 而 区 是 
setup, $ KIEAY240-N ig Ke E S headhsystem tk 
块 ， 一 共有 245 个 而 区 ° E” EMRE EMA 
256) XF ER ° 


下 面 ， 进 程 1 调用 rd load O 函数 ， 用 软盘 上 
256 以 后 扇 区 中 的 信息 “格式 化 ?虚拟 盘 ， 使 之 成 为 
一 个 块 设备 。 


执行 代码 如 下 : 


// 代 码 路 径 : kernel/blk_dev/hd.c: 


int sys_setup (void * BIOS) 


ee 


if (NR_HD) 
printk ("Partition table%s ok.\n\r", (NR-HD>1) ?"s": '™) ; 
rd load () ; 


mount _ root () ; 


return (0) ; 
} 
进入 rd_load () 范 数 后 ， 调 用 breada () X 


BUNK TA ERE, Bie RETO” het 
fe Fis SCH 9 | EER ` RETR © 


注意 : 现在 根 设备 是 软盘 。 


breada () 和 bread () 函数 类 似 ， 不 同 点 在 
于 可 以 把 一 些 连 续 的 数据 块 都 读 进 来 ， 一 共 二 
块 ， 分 别 是 257、256 和 258， 其 中 引导 块 在 256 
(尽管 引导 块 并 未 实际 使 用 ) 、 超 级 块 在 257 中 。 
从 软盘 上 读 取 数据 块 与 bread 读 硬盘 上 的 数据 块 原 
HEKA, AAAS 43.3.1 RR o BERL 
完成 后 的 状态 如 图 3-32 所 示 。 可 以 看 出 3 个 连续 的 
数据 块 被 读 入 了 高 速 缓冲 区 的 缓冲 块 中 ， 其 中 ， 
超级 块 用 红色 框 标注 。 


ii A Ox9FFFF OxFFFFF 0x3FFFFF 0x5FFFFF OxFFFFFF 
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Al 3-32 读 取 根 文件 系统 超级 块 


之 后 ， 分 析 超 级 块 信息 ， 包 括 判 断 文件 系统 
征 不 征 minix 文 件 系统 、 接 下 来 要 载 入 的 根 文件 系 
统 的 数据 块 数 会 不 会 比 整个 虚拟 型 区 都 大 .…… 这 
些 条 件 都 通过 ， 才 能 继续 加 载 根 文 件 系 统 。 分 析 
完毕 ， 释 放 绥 促 块 。 


整个 过 程 如 图 3-33 所 示 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/ramdisk.c: 

void rd_load (void) 

{ 

struct buffer_head * bh; 

struct super_block s; 

int block=256; /*Start at block 256*/ 

int I=1; 

int nblocks; 

char * cp; /*Move pointer*/ 

if (! rd_length) 

return; 

printk ("Ram disk: %d bytes,starting at 0x%x\n", rd_length, 
(int) rd_start) ; 

if (MAJOR (ROOT_DEV) ! =2) // 如 果 根 设备 不 是 软盘 


return; 


bh=breada (ROOT_DEV,block+1, block,block+2, -1) ; 
if (! bh) { 

printk ("Disk error while looking for ramdisk! \n") ; 
return; 


* ( (struct d_super_block *) &s) =* ( (struct d_super_block *) 
bh->b_data) ; 


brelse (bh) ; 


if (s.s_magic! =SUPER_MAGIC) /如 果 不 等 ， 说 明 不 是 minix 文 
件 系 统 


/*No ram disk image present,assume normal floppy boot*/ 

return; 

nblocks=s.s_nzones < <s.s_log_zone_size; /算出 虚拟 盘 的 块 数 
if (nblocks> (rd_length> >BLOCK_SIZE_BITS) ) { 

printk ("Ram disk image too big! (%d blocks, %d avail) \n", 
nblocks,rd_length > >BLOCK_SIZE_BITS) ; 


return; 


printk ("Loading%d bytes into ram disk......0000k", 


nblocks < <BLOCK_SIZE_BITS) ; 
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第 一 步 : 备份 超级 块 


进程 0 进程 1 


Al 3-33 备份 超级 块 并 检测 效 据 


接 下 来 调用 breada () 函数 ， 把 与 文件 系统 
相关 的 内 容 ， 从 软盘 上 找 贝 到 虚拟 盘 中 ， 然 后 及 


时 释放 缓冲 块 ， 最 终 完 成 “格式 化 ”这 个 过 程 ， 如 
图 3-34 所 示 。 


复制 结束 后 ， 将 虚拟 副 设 置 为 根 设备 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/ramdisk.c: 


void rd load (void) 


ee ee 


printk ("Loading%d bytes into ram disk......0000k", 
nblocks < <BLOCK_SIZE_BITS) ; 
cp=rd_start; 


mS (nblocks) {/ 将 软盘 上 准备 格式 化 用 的 根 文件 系统 复制 到 虚 
Wes 


if (nblocks> 2) 


bh=breada (ROOT_DEV,block,block+1, block+2, -1) ; 


else 

bh=bread (ROOT_DEV,block) ; 

if (! bh) { 

printk ("I/O error on block%d,aborting load\n", 
block) ; 


return; 


(void) memcpy (cp,bh->b_data,BLOCK_SIZE) ; 
brelse (bh) ; 

printk ("\010\010\010\010\010%4dk", i) ; 
cp+=BLOCK_SIZE; 

block++; 

nblocks--; 

i++; 
} 


printk ("\010\010\010\010\010done\n") ; 


ROOT _DEV=0x0101; /设置 虚拟 盘 为 根 设备 
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1 第 二 步 : 将 根 文件 系 
统 数据 加 载 到 虚拟 盘 
第 一 步 : 将 根 文件 系统 数据 
从 软盘 不 断 地 复制 到 缓冲 区 
ace aa 
进程 0 进程 1 


和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 示 


图 3-34 将 根 文 件 系统 从 软盘 复制 到 虚拟 盘 


下 面 将 要 介绍 在 虚拟 一 这 个 根 设备 上 加 载 根 
MIF AZ 统 。 


3.3.3 ”进程 1 在 根 设 备 上 加 载 根 文件 系统 


操作 系统 中 加 载 根 文 件 系 统 涉及 文件 、 文 件 
系统 、 根 文件 系统 、 加 载 文件 系统 、 加 载 根 文件 
系统 这 几 个 概念 。 为 了 更 容易 理解 ， 这 里 我 们 只 
HERRE, PWEN ` EN ` EMA AR 
块 设备 的 详细 讨论 请 阅读 第 5、7 章 ) 。 


操作 系统 中 的 文件 系统 可 以 大 致 分 成 两 部 


分 ; 一 部 分 在 操作 系统 内 核 中 ， 夯 一 部 分 在 便 
È AÈ ` EMA o 


文件 系统 是 用 来 管理 文件 的 。 文 件 系统 用 iP 
AREE, NTE PO, TT 
文件 一 一 对 应 。 文 件 的 路 径 在 操作 系统 中 由 目录 
文件 中 的 目 邓 项 管理 ， 一 个 目 邓 项 对 应 一 级 路 


径 ， 目 孙 文 件 也 征文 件 ， 也 由 im 氮 管 理 。 一 个 文 
件 挂 在 一 个 目 台 文件 的 目 邓 项 上 ， 这 个 目录 文件 
根据 实际 路 径 的 不 同 ， 文 可 能 挂 在 态 一 个 目 永 文 
件 的 目录 项 上 。 一 个 目 邓 文件 有 多 个 目 台 项 ， 可 
以 形成 不 同 的 路 径 。 戏 来 如 图 3-35 所 示 。 


A 目录 文件 i 节点 B 目 录 文 件 i 节 点 


3-35 ”文件 路 人 径 与 节点 天 系 示意 图 


所 有 的 文件 (包括 目录 文件 ， 的 i 和 点 最 终 挂 
接 成 一 个 网 形 绪 构 ， 攀 根 i 点 束 叫 这 个 文件 系统 
HARI TR © Re (一 个 物理 设备 可 以 分 
成 多 个 逻辑 设备 ， 比 如 物理 便 副 可 以 分 成 多 个 逻 


包含 一 个 这 样 的 树 形 结构 ， 也 就 是 说 ， 一 个 逻辑 
wa HRA NIRITA ° 


加 载 文件 系统 最 重要 的 标 兰 ， 束 是 把 一 个 逻 
辑 设 备 上 的 文件 系统 的 根 i 上 后， 天 联 到 为 一 个 文 
件 系 统 的 i 市 点 上 。 具 体 十 哪 一 个 太后， 由 操作 系 
统 的 使 用 者 通过 mount 命 令 决 定 。 


逻辑 效果 如 岁 3-36 所 示 。 


A 3-36 加 载 根 文件 系统 逻辑 效果 图 


DIP NSE RSD ERE PO 
系统 上 ， 按 照 这 个 设计 ， 一 定 存 在 一 个 只 被 其 他 
文件 系统 挂 接 的 文件 系统 ， 这 个 文件 系统 束 叫 根 
文件 系统 ， 根 文件 系统 所 在 的 设备 束 叫 根 设备 。 


别 的 文件 系统 可 以 挂 在 根 文件 系 统 上 ， 根 文 
件 系统 挂 在 哪 呢 ? 


挂 在 super_block[8] 上。 


Linux 0.11 操 作 系统 中 只 有 一 个 
super_block[8]， 每 个 数组 元 系 是 一 个 超级 块 ， 一 
个 超级 块 管理 一 个 逻辑 设备 ， 也 就 是 说 操作 系统 
和 最 多 只 能 管理 8 个 逻辑 设备 ， 其 中 只 有 一 个 根 议 
备 。 加 载 根 文件 系统 最 重要 的 标志 融 是 把 根 文 件 


系统 的 根 i 点 挂 在 super_block[8] 中 根 设 备 对 应 的 
超级 块 上 。 


可 以 说 ， 加 载 根 文件 系统 有 三 个 主要 步 又 


1) 复制 根 设备 的 超级 块 到 super_block[8] 中 ， 
将 根 设备 中 的 根 i 太 点 挂 在 super_block[8] 中 对 应 根 
设备 的 超级 块 上 。 


2) 将 驻 留 绥 冲 区 中 16 个 缓冲 块 的 根 设备 逻辑 
块 位 图 、i 市 扣 位 图 分 别 挂 接 在 super_block[8] 中 根 
设备 超级 块 的 s_zmap[8]、s_imap[8] 上 。 


3) 将 当前 进程 的 pwd、root 指 针 指 向 根 设备 
的 根 i 点 。 


加 载 根 文件 系统 和 安装 硬盘 文件 系统 完成 后 
的 总 体 歼 果 如 图 3-37 所 示 。 
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Al 3-37 总 体 效 果 图 


进程 1 通过 调用 mount_root () 函数 实现 在 根 
设备 虚拟 一 上 加 载 根 文件 系统 。 执 行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/hd.c: 
int sys_setup (void * BIOS) 


{ 


brelse (bh) ; 

} 

if (NR_HD) 

printk ("Partition table%s ok.\n\r", (NR_HD>1) ?"s": "") ; 
rd_load () ; 

mount _root () ; /加 载 根 文件 系统 


return (0) ; 


} 


1. 复 制 根 设 备 的 超级 块 到 super_block[8] 中 


进入 mount_root O 函数 后 ， 初 始 化 内 存 中 的 
超级 块 super_block[8]， 将 每 一 项 所 对 应 的 设备 号 
加 锁 标 志和 等 行 它 解锁 的 进程 全 部 设置 为 0。 系 统 
只 要 想 和 任何 一 个 设备 以 文件 的 形式 进行 数据 交 
互 ， 束 要 将 这 个 设备 的 超级 块 存 储 在 


super_block[8] 中 ， 这 样 可 以 通过 super_block[8] 获 
取 这 个 设备 中 文件 系统 的 最 基本 信息 ， 根 设备 中 
的 超级 块 也 不 例外 ， 如 图 3-38 所 示 。 
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3-38 初始 化 file_table[64] 和 super_block[8] 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount_root (void) 

{ 

int i,free; 

struct super_block * p; 

struct m_inode * mi; 

if (32! =sizeof (struct d_inode) ) 
panic ("bad i-node size") ; 


for (i=0; i<NR_FILE; i++) // 初 始 化 fle_table[64]， 为 后 续 程序 
做 准备 


file_tablelil.f_ count=0; 


if (MAJOR (ROOT_DEV) ==2) {//2 代 表 软 盘 ， 此 时 根 设备 是 虚 
拟 盘 ， 是 1。 反 之 ， 没 有 虚拟 盘 ， 则 加 载 软盘 的 根 文 件 系统 


printk ("Insert root floppy and press ENTER") ; 

wait for_keypress () ; 

} 

/初始 化 super_block[8] 

for (p=&super_block[0]; p< &super_block[NR_SUPER]; p++) { 


p->s_dev=0; 


p-> s_lock=0; 


p-> s_wait=NULL; 


if (! (p=read super (ROOT_DEV) ) ) 
panic ("Unable to mount root") ; 


前 面 的 rd_load () ANZA See eT 
盘 ， 并 设置 为 根 设备 。 接 下 来 调用 read_super () 
函数 ， 从 虚拟 盘 中 读 取 根 设 备 的 超级 块 ， 复 制 到 
super_block[8] 中 。 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount root (void) 


if (! (p=read super (ROOT DEV) ) ) 
panic ("Unable to mount root") ; 


在 read_super () 函数 中 ， 驳 检测 这 个 超级 块 
是 不 是 已 经 被 读 进 super_block[8] 中 了 。 如 果 已 经 
被 读 进来 了 ， 则 直接 使 用 ， 不 需要 再 加 载 一 次 
° 这 与 本 章 3.3.1 廊 中 先 通过 蛤 硕 表 来 检测 缓冲 
块 是 否 已 经 存在 的 道理 是 一 样 的 。 


一 | 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


{ 

struct super_block * s; 

struct buffer_head * bh; 

int i,block; 

if (! dev) 

return NULL; 

check _disk_change (dev) ; /检查 是 否 换 过 盘 ， 并 做 相应 处 理 
if (s=get_super (dev) ) 

return s; 


因为 此 前 没有 加 载 过 根 文件 系统 ， 所 以 要 在 
super_block[8] 中 申请 一 项 。 从 图 3-39 中 可 以 看 
出 ， 此 时 找到 的 是 super_block[8] 结 构 中 的 第 一 


项 。 然 后 进行 初始 化 并 加 锁 ， 准 备 把 根 设备 的 超 
级 块 读 出 。 
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图 3-39 加 载 根 文件 系统 超级 块 


对 应 的 代码 如 下 : 


/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


for (s=0+super block; s++) { 

if (s>=NR_SUPER+super_block) //NR_SUPER 是 8 
return NULL; 

if (! s->s_dev) 


break; 


s->s_ dev=dev; 
s->s_isupb=NULL; 
s->s_imount=NULL; 
s->s_time=0; 
s->s_rd_only=0; 
s->s_dirt=0; 


lock _super (s) ; /锁定 超级 块 


调用 bread () 画 数 ， 把 超级 块 从 虚拟 到 上 读 
进 缓冲 区 ， 并 从 缓冲 区 复制 到 super_block[8] 的 第 
一 项 。bread () 函数 在 3.3.1 节 中 已 经 说 明 。 这 里 
有 一 护 区 别 ， 在 3.3.1 广 中 提 到 ， 如 果 给 硬盘 发 送 
操作 命令 ， 则 调用 do_hd_request O 函数 ， 而 此 
时 操作 的 是 虚拟 盘 ， 所 以 要 调用 do_rd_request () 
函数 。 值 得 注意 的 是 ， 虚 拟 盘 虽然 被 视 为 外 设 ， 
但 它 毕竟 是 内 存 里 面 一 段 空间 ， 并 不 是 实际 的 外 
设 ， 所 以 ， 调 用 do_rd_request () KAEMA E 
读 取 超级 块 ， 不 会 发 生 类 似 硬盘 中 断 的 情况 。 


超级 块 复制 进 绥 神 块 以 后 ， 将 缓冲 块 中 的 超 
级 块 数据 复制 到 super_block[8] 的 第 一 项 。 从 现在 
起 ， 虚 拟 盘 这 个 根 设备 就 由 super_block[8] 的 第 一 


项 来 管理 ， 之 后 调用 brelse () 函数 释放 这 个 缓冲 
块 ， 如 图 3-40 所 示 。 
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第 二 步 ， 将 超级 块 数据 


复制 到 super block[0] 第 一 步 : 将 根 文件 系统 超 


级 块 从 虚拟 益 读 入 缓冲 块 
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图 3-40 从 虚拟 盘 读 取 超级 块 并 复制 到 内 核 超 
级 块 表 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


if (! (bh=bread (dev, 1) ) ) {V/ 读 根 设备 的 超级 块 到 缓冲 区 
s->s_dev=0; 

free_super (s) ; /释放 超级 块 

return NULL; 

} 

* ( (struct d_super_block *) s) =// 将 绥 冲 区 中 的 超级 块 复制 到 


* ( (struct d_super_block *) bh->b_data) ; //super_block[8] 第 一 
项 


ad 


brelse (bh) ; /释放 缓冲 块 


if (s->s_magic! =SUPER_MAGIC) {// 判 断 超 级 块 的 魔 数 
(SUPER_MAGIC) 是 否 正 确 


s->s_dev=0; 
free _super (s) ; /释放 超级 块 
return NULL; 


} 


初始 化 super_block[8] 中 的 虚拟 盘 超 级 块 中 的 
节点 位 图 s_imap、 逻 辑 块 位 图 $s_zmap， 并 把 虚拟 
盘 上 i 节点 位 图 、 逻 辑 块 位 图 所 占用 的 所 有 逻辑 块 
读 到 缓冲 区 ， 将 这 些 缓冲 块 分 别 挂 接 到 s_imap[8] 
和 s_zmap[8] 上 “。 由 于 对 它们 的 操作 会 比较 频繁 ， 
所 以 这 些 占用 的 缓冲 块 并 不 被 释放 ， 它 们 将 常 驻 
在 缓冲 区 内 。 


如 图 3-41 所 示 ， 超 级 块 通过 指针 与 s_ imap 和 
s_zmap 实 现 挂 接 。 
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执行 代码 如 下 : 
/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


{ 


for (i=0; i<ILMAP_SLOTS; i++) /初始 化 s_imap[8]、s_zmap[8] 
s->s_imap[iJ=NULL; 

for (i=0; i<Z_MAP_SLOTS; i++) 

s->s_zmap[iJ=NULL; 


block=2; //KEfUZLA ADR, BORAT ei waa 
逻辑 块 位 图 


for (i=0; i<s->s_imap_blocks; i++) /把 虚拟 盘 上 im 点 位 图 所 占 
用 的 所 有 逻辑 块 


if (s->s_imap[iJ=bread (dev,block) ) // 读 到 缓冲 区 ， 分 别 挂 接 到 
s_imap[8] 上 


block++; 
else 
break; 


for (i=0; i<s->s_zmap_blocks; i++) // 把 虚拟 盘 上 逻辑 块 位 图 所 
占用 的 所 有 逮 辑 块 


if (s->s_zmap[i]=bread (dev,block) ) // 读 到 缓冲 区 ， 分 别 挂 接 到 
s_zmap[8] 上 


block++; 


else 


break; 


if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) {/ 如 果 i 节 
点 位 图 、 逻 辑 块 位 


for (i=0; i<I_MAP_SLOTS; i++) /图 所 占用 的 块 数 不 对 ， 说 明 
操作 系统 有 问题 ， 则 应 释放 前 


brelse (s->s_imap[i]) ; // 面 获得 的 缓冲 块 及 超级 块 
for (i=0; i<Z MAP SLOTS; i++) 

brelse (s->s_zmapf[i]) ; 

s->s_ dev=0; 

free super (s) ; 

return NULL; 


}s->s_imap[0]->b_data[0]|=1; /牺牲 一 个 节点 ， 以 防止 查找 算法 
返回 0 


s- >s_zmap[0]->b_data[0]|=1; // 与 0 号 i 节点 混淆 
free _super (s) ; 
return sS; 


} 


2. 将 根 设备 中 的 根 iP 点 挂 在 super_block[8] 中 
根 设 备 超级 块 上 


回 到 mount_root () 画 数 中 ， 调 用 jget () EH 
数 ， 从 虚拟 盘 上 读 取 根 i 节 点 。 根 i 点 的 意义 在 
于 ， 通 过 它 可 以 到 文件 系统 中 任何 指定 的 i 节点 ， 
也 就 是 能 找到 任何 指定 的 文件 。 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount_root (void) 


if (! (p=read super (ROOT_DEV) ) ) 
panic ("Unable to mount root") ; 


if (! (mi=iget (ROOT_DEV,ROOT_INO) ) ) 


panic ("Unable to read root i-node") ; 


进入 iget O AUG, PERS UT Aa 
inode_table[32] 中 申请 一 个 空 邮 的 i 节点 位 置 
(inode_table[32] 是 操作 系统 用 来 控制 同时 打开 不 
同文 件 的 最 大 数 ) 。 此 时 应 该 是 首 个 节点。 对 这 
个 i 节点 进行 初始 化 设置 ， 其 中 包括 该 节点 对 应 的 
设备 号 、 该 i 太 点 的 节点 号 ..…... 图 3-42 中 给 出 了 根 
目录 i 节点 在 内 核 节 点 表 中 的 位 置 。 
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通过 调用 iget， 在 内 核 i 节点 表 中 
找到 根 目录 i 节点 的 加 载 位 置 
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3-42” 读 取 根 目录 i 六 点 


对 应 代码 如 下 : 


// 代 人 码 路 径 : fs/inode.c: 


struct m_inode * iget (int dev,int nr) 


struct m_inode * inode, *empty; 


if (! dev) 


panic ("iget with dev==0") ; 


empty=get_empty_inode () ; /从 inode_table[32] 中 申请 一 个 空闲 的 
iq 
ins 


LAJ 


inode=inode_table; 


while (inode<NR_INODE+inode table) {// 查 找 与 参数 相同 的 
inode 


if (inode->i_dev! =devllinode->i num! =nr) { 

inode++; 

continue; 

} 

wait _on_inode (inode) ; /等 待 解锁 

if (inode->i_dev! =devjlinode->i_num! =nr) {/ 如 等 待 期 间 发 生 
inode=inode_table; /变化 ， 继 续 查 找 


continue; 


inode- > i_count++; 
if (inode->i_mount) { 


int i; 


for (i=0; i<NR_SUPER; i++) /如 是 mount 点 ， 则 查找 对 应 的 超 
级 块 


if (super_block[i].s_imount==inode) 

break; 

if (1 >=NR_SUPER) { 

printk ("Mounted inode hasn't got sb\n") ; 

if (empty) 

iput (empty) ; 

return inode; 

} 

iput (inode) ; 

dev=super_block[i].s_dev; /从 超级 块 中 获取 设备 号 
nr=ROOT_INO; /ROOT_INO 为 1， 根 i 节点 号 
inode=inode_table; 

continue; 

j 

if (empty) 


iput (empty) ; 


return inode; 

} 

if (! empty) 

return (NULL) ; 

inode=empty; 

inode->i_dev=dev; /初始 化 

inode- > i_num=nr; 

read _inode (inode) ; // 从 虚拟 盘 上 读 出 根 i 节 点 
return inode; 


} 


在 read_inode () 函数 中 ， 先 给 inode_table[32] 
中 的 这 个 i 节点 加 锁 。 在 解锁 之 前 ， 这 个 i 节点 就 不 
会 被 别 的 程序 占用 。 之 后 ， 通 过 该 节点 所 在 的 超 
级 块 ， 间 接地 计算 出 i 节点 所 在 的 逻辑 块 号 ， 并 将 i 
节点 所 在 的 逻辑 块 整体 读 出 ， 从 中 提取 这 个 i 节点 


的 信息 ， 载 入 刚才 加 锁 的 i 市 点 位 置 上 ， 如 图 3-43 
所 示 ， 注 意 inode_table[32] 中 的 变化 。 最 后 ， 释 放 
缓冲 块 并 将 锁定 的 i 点 解锁 。 
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执行 的 代码 如 下 : 


/代码 路 径 : fs/inode.c: 


static void read_inode (struct m_inode * inode) 


lock inode (inode) ; /锁定 inode 


if (! (sb=get_super (inode->i_dev) ) ) /获得 inode 所 在 设备 的 
超级 块 


block=2+sb- > s_imap_blocks+sb- > s_zmap_blocks+ 
(inode- > i_num-1) /INODES_PER_BLOCK; 


if (! (bh=bread (inode->i_dev,block) ) ) // 读 inode 所 在 逻辑 块 
进 缓冲 块 


panic ("unable to read i-node block") ; 
* (struct d_inode *) inode=// 整 体 复制 
( (struct d_inode *) bh->b_data) 
[ (inode->i_num-1) %INODES PER BLOCK]; 
brelse (bh) ; /释放 缓冲 块 
unlock _inode (inode) ; /解锁 


} 


回 到 iget O 画 数 ， 将 inode 指 针 返 回 给 
mount root () 函数 ， 并 赋 给 mi 指针 。 


下 面 是 加 载 根 文件 系统 的 标志 性 动作 : 


将 inode_table[32] 中 代表 虚拟 副 根 证 点 的 项 挂 
接 到 super_block[8] 中 代表 根 设 备 虚 拟 盘 的 项 中 的 
s_isup、s_imount 指 计 上 “。 这 样 ， 操 作 系统 在 根 设 
备 上 可 以 通过 这 里 建立 的 关系 ， 一 步 步 地 把 文件 
找到 。 


3. 将 根 文件 系统 与 进程 1 关联 


对 进程 1 的 tast_struct 中 与 文件 系统 i 万 点 有 天 
的 字段 进行 设置 ， 将 根 i 点 与 当前 进程 (现在 就 
是 进程 1) 关联 起 来 ， 如 图 3-44 所 示 。 
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图 3-44 加 载 根 文件 系统 完成 并 返回 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount root (void) 


if (! (mi=iget (ROOT_DEV,ROOT_INO) ) ) // 根 设备 的 根 i 节 


panic ("Unable to read root i-node") ; 
mi->i_count+=3; /*NOTE! it is logically used 4 times,not 1*/ 
p->s_isup=p->s_imount=mi; /标志 性 的 一 步 ! 


current-> pwd=mi; /当前 进程 (进程 1) 掌控 根 文件 系统 的 根 i 


current- > root=mi; // 父 子 进 程 创建 机 制 将 这 个 特性 遗传 给 子 进程 


得 到 了 根 文件 系统 的 超级 块 ， 束 可 以 根据 超 
级 块 中 “逻辑 块 位 图 ”里 记载 的 信息 ， 计 算出 虚拟 
盘 上 数据 块 的 占用 与 空 内 情况 ， 并 将 此 信息 记录 
在 3.3.3 广 中 提 到 的 狂 留 在 绥 冲 区 中 “小 和 载 逻 辑 块 位 
图 信息 的 缓冲 块 中 ”。 执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


void mount_root (void) 


i=p->s_nzones; 

while (--i>=0) /计算 虚拟 盘 中 空闲 逻 辑 块 的 总 数 

if (! set bit (i&8191, p->s_zmap[i> >13]->b_data) ) 
free++; 

printk ("%d/%d free blocks\n\r", free,p->s_nzones) ; 
free=0; 

i=p- > s_ninodes+1; 

while (--i>=0) /计算 虚拟 盘 中 空闲 的 i 节 点 的 总 数 

if (! set_bit (i&8191, p->s imap[i> >13]->b_data) ) 
free++; 

printk ("%d/%d free inodes\n\r", free,p->s_ninodes) ; 


} 


到 此 为 止 ，sys_setup () 函数 焉 全 都 执行 完 
毕 了 。 因 为 这 个 函数 也 是 由 于 产生 软 中 断 才 被 调 
用 的 ， 所 以 返回 system_call 中 执行 ， 之 后 会 执行 
ret_from_sys_call。 这 了 时候 的 当前 进程 古 进程 1， 所 
以 下 面 将 调用 do_signal () 函数 (只 要 当前 进程 
不 是 进程 0， 就 要 执行 到 这 里 ) ， 对 当前 进程 的 信 
号 位 图 进行 检测 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 

ret _from_sys_call: 

movl _current, %eax#task[O]cannot have signals 

cmpl _task, %eax 

je 3f 

cmpw $0x0f,CS (%esp) #was old code segment supervisor? 


jne 3f 


cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) ，%ebx# 下 面 是 取信 号 位 图 ..…...…. 
movl blocked (%eax) , %ecx 

notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx,signal (%eax) 

incl %ecx 

pushl %ecx 


call _do_signal# 调 用 do_signal () 


现在 ， 当 前 进程 (进程 1) 并 没有 接收 到 信 
号 ， 调 用 do_signal () 函数 并 没有 实际 的 意义 。 


至 此 ，sys_setup () 的 系统 调用 结束 ， 进 程 1 
将 返回 3.3 让 中 讲 到 的 代码 的 调用 点 ， 准 备 下 面 代 
码 的 执行 。 


/代码 路 径 : init/main.c: 


void init (void) 


int pid,i; 

setup ( (void *) Sdrive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; 

(void) dup (0) ; 

printf ("%d buffers=%d bytes buffer space\n\r", NR BUFFERS, 


NR BUFFERS * BLOCK SIZE) ; 


至 此 ， 进 程 0 创建 进程 1， 进 程 1 为 安装 硬 开 文 
件 系统 做 准备 、 “格式 化 ?虚拟 一 并 用 虚拟 一 取代 
软盘 为 根 设备 、 在 虚拟 盘 上 加 载 根 文件 系统 的 内 


容 讲解 完毕 。 


3.4 ”本章 小 结 


本 章 详细 讲解 了 进程 0 创建 进程 1 的 全 过 程 。 
后 续 所 有 进程 的 创建 过 程 与 这 个 过 程 基本 相同 。 
透彻 理解 这 个 创建 过 程 ， 为 理解 后 续 的 进程 创建 
打下 坚实 的 基础 。 


本 草 还 讲解 了 操作 系统 局 动 以 来 内 核 做 的 第 
一 次 进程 调度 ， 内 容 涉 及 了 进程 调度 的 很 多 代 
人 码 ， 为 更 深入 地 理解 进程 调度 起 到 了 很 好 的 铺 到 
作用 。 


最 后 ， 本 章 详 细 讲 解 了 进程 1 第 一 次 执行 后 所 
侈 的 设置 便 盘 信息 、 格 式 化 虚拟 一 、 加 载 根 文件 
系统 等 工作 。 


第 4 章 ”进程 2 的 创建 及 执行 


现在 ， 计 算 机 中 已 经 创建 了 两 个 进程 : 进程 
0、 进 程 1。 本 章 我 们 将 要 详细 讲解 进程 1 创建 进程 
2 的 过 程 ， 以 及 进程 2 的 执行 ， 最 终 shell 进 程 开 始 
执行 ， 整 个 boot 工 作 完 成 ， 实 现 系 统 尽 速 


4.1 打开 终 闹 设备 文件 及 复制 文件 句 
本 


shell 进 程 是 用 尸 界 面 进程 。 计 算 机 用 户 使 用 
显示 器 、 键 盘 (终端 设备 ) 通过 shell 进 程 与 探 作 
系统 之 间 进 行人 机 交互 。 


4.1.1 打开 标准 输入 设备 文件 


tty0 文 件 加 载 后 ， 束 形成 了 如 图 4-1 所 示 的 效 
FA ° 


iin. file table[64] inode table[32] 
LML- | 
超级 块 加 载 该 i 节 点 


JFR ;着 点 位 图 ”逻辑 块 位 图 


4-1 打开 tty0 文 件 后， 文件 信 息 在 内 存 和 进 
程 中 的 分 布 


1.file_table[0] 挂 接 在 进程 1 的 filp[0] 


在 加 载 完 根 文 件 系 统 之 后 ， 进 程 1 在 其 支持 
下 ， 通 过 调用 open () 函数 来 打开 标准 输入 设备 
文件 ， 执 行 代码 如 下 : 


/代码 路 径 : init/main.c: 

void init (void) 

{ 

int pid,i; 

setup ( (void *) S&drive_info) ; 


(void) open ("/dev/ttyO", O_RDWR, 0) ; /创建 标准 输入 设 
备 ， 其 中 /dewtty0 是 该 文件 的 路 径 名 


(void) dup (0) ; /创建 标准 输出 设备 
(void) dup (0) ; /创建 标准 错误 输出 设备 


_ printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, // 
在 标准 输出 设备 文 持 下 ， 显 示 信 息 


NR BUFFERS * BLOCK SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


open () 函数 执行 后 产生 软 中 断 ， 并 最 终 
射 到 内 核 中 sys_open O 函数 去 执行 。 此 映射 过 程 
与 第 3 章 3.1.1 市 中 fork () 函数 映射 到 sys_fork () 
国 数 的 扩 术 路 线 大 体 一 致 。 执 行 代 码 如 下 : 


/代码 路 径 : fs/open.c: 

int open (const char * filename,int flag, ...... ) 
{ 

register int res; 

va _list arg; 

va_start (arg,flag) ; 


_asm ("int$0x80"M/ 以 下 代码 与 fork 到 sys_fork 的 映射 类 似 ， 详 情 
参看 第 3 章 3.1.1 下 


"一 an (res) 
"o" (__NR_open) , "b" (filename) , "c" (flag) , 
"d" (va_arg (arg,int) ) ) ; 


if (res >=0) 


return res; 
ermmo=-res; 
return-1; 


} 


进入 sys_open () 函数 ， 内 核 先 将 进程 1 的 
filp[20] 与 file_table[64] 挂 接 ， 建 立 进 程 与 
file_table[64] 的 关系 ， 执 行 代码 如 下 : 


/代码 路 径 : fs/open.c: 

int sys_open (const char * filename,int flag,int mode) 
{ 

struct m_inode * inode; 

struct file * f; 

int i,fd; 

mode &=0777 & ~current- > umask; 


for (fd=0; fd<NR_OPEN; fd++) // J tRE1Mfilp 


if (! current->flp[fd]) /直到 获取 一 个 空间 项 ，fd 就 是 这 个 空 闪 项 
的 项 号 


break; 


if (fd>=NR_OPEN) /如 果 此 条 件 成 立 ， 说 明和 锯 p[20] 中 没有 空闲 
项 了 ， 直 接 返 回 


return-EINVAL; 

current- > close_on_exec&=~ (1< <fd) ; 
f=0+file_table; // 获 取 file_table[64] 首 地 址 

for (i=0; i<NR_FILE; i++, f++) //Ħ) file _table[64] 


if (! f>f count) break; /直到 获取 一 个 空 采 项 ，f 就 是 这 个 空闲 
项 的 指针 


让 ({>=NR_FILE) /如 果 此 条 件 成 立 ， 说 明 file_table[64] 中 没有 空 
HDT, 


// 直 接 返 回 
return-EINVAL; 


(current- > filp[fd]=f) ->f_countt+; /J #1 filp[20] 5 
file_table[64] Eik, F hi5 Arä 


if ( (i=open_namei (flename,fagmode, &inode) ) <0) {// 获 取 
MFT A 


current- > filp[fdJ=NULL; 


f- > f_count=0; 


return i; 


挂 接 情景 如 图 4-2 所 示 。 
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2. 俏 定 绝对 路 径 起 点 


内 核 将 调用 open_namei () 函数 ， 最 终 获 取 
标准 输入 设备 文件 的 节点， 具体 执行 代码 如 下 : 


/代码 路 径 : fs/open.c: 

int sys_open (const char * filename,int flag,int mode) 
{ 

struct m_inode * inode; 

struct file * f; 

int i,fd; 

mode &=0777 & ~current- > umask; 
for (fd=0; fd<NR_OPEN; fd++) 
if (! current-> flp[fd]) 

break; 

if (fd>=NR_OPEN) 


return-EIN VAL; 


current- > close_on_exec&=~ (1< <fd) ; 
f=0+file_table; 
for (i=0; i<NR_FILE; i++, f++) 
if (! f->f_count) break; 
if (i>=NR_FILE) 
return-EINVAL ; 
(current- > filp[fd]J=f) ->f_count++; 


if ( (i=open_namei (filename, flag,mode, Szinode) ) <0) {/ 此 时 
的 们 ename 束 是 路 径 /dev/tty0 的 指针 


current- > filp[fdJ=NULL; 
f- > f£_count=0; 


return i; 


这 一 目标 是 通过 不 断 分 析 路 径 名 来 实现 的 。 
分 析 工 作 的 第 一 阶段 是 调用 dir_namei () ERR, 
获取 枝 梢 i 节点 ， 即 /dev/tty0 路 径 中 dev 目 录 文件 的 i 
节点 ， 第 二 阶段 是 调用 find_entry O 函数 ， 通 过 
此 i 廊 操 ， 找 到 dev 目 条 文件 中 tty0 这 一 目 杂 项， 再 
通过 该 目录 项 找到 tty0 文 件 的 i 节点 。 


第 一 阶段 ， 调 用 dir_namei () WAX, BAH 
行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname,int flag,int mode, //pathname 
就 是 路 径 /dev/tty0 的 指针 


struct m_inode ** res_inode) 


{ 


const char * basename; //basename 记 录 目 录 项 名 字 前 面 /' 的 地 址 


int inr,dev,namelen; /namelen 记 录 名 字 的 长 度 


struct m_inode * dir, *inode; 


struct buffer_head * bh; 


struct dir_entry * de; //deHoKts la] H INE 

if ( (flag&O_TRUNC) &&! (flag&O_ACCMODE) ) 
flas|=O_WRONLY; 

mode &=0777 & ~current- > umask; 

mode|=I_LREGULAR; 


if (! (dir=dir_namei (pathname, &namelen, & 


basename) ) ) /获取 枝 梢 ji 节点 
return-ENOENT; 
if (! namelen) {/*special case: '/usr/'etc*/ 
if (! (flag& (O_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 
return 0; 
} 
iput (dir) ; 


return-EISDIR; 


bh=find_entry (S&dir,basename,namelen, &de) ; // 通 过 枝 梢 i 节 
点 ， 找 到 目标 文件 的 目录 项 


dir_namei () 函数 中 将 首 移 调用 get_dir () 
国 数 来 获取 入 梢 im 点， 之 后 再 通过 解析 路 径 名 ， 
获取 tty0 目 录 项 的 地 址 和 文件 名 长 度 信息 。 调 用 
get_dir O 函数 的 具体 执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * dir_namei (const char * pathname, //pathname 


就 是 路 径 /dev/tty0 的 指针 
int * namelen,const char ** name) 
{ 
char c; 
const char * basename; 


struct m_inode * dir; 


if (! (dir=get_dir (pathname) ) ) /获取 i 节 点 的 执行 函数 
return NULL; 
basename=pathname; 


while (c=get_fs_byte (pathname++) ) // 逐 个 遍历 /dev/tty0 字 符 
串 ， 每 次 循环 都 将 一 个 字符 复制 给 c， 直 到 字符 串 结束 


if (c=='/) 

basename=pathname; 

*namelen=pathname-basename-1; /确定 tty0 名 字 的 长 度 
*name=basename; /得 到 tty0 前 面 / 字 符 的 地 址 

return dir; 


} 


值得 注意 的 是 ，get_fs_byte () ACERT ER 
EAA DERE, FLL Pee PRET o 
ARK UE Je TL PRB ERT LEPER H F], 
它 的 内 部 处 理 过 程 如 下 : 


/代码 路 径 : include/asm/Segment.h: 

extern inline unsigned char get_fs_byte (const char * addr) 
{ 

unsigned register char_v; 


asm ("movb%%fs: %1，%0"M/movb 指 令 可 以 将 8 位 ， 即 1 字 节 
数据 移入 指定 寄存 器 (fs) 


"=" (v) /WN 是 输出 的 字符 
"m" (*addr) ) ; //*addr 是 输入 的 内 存 地 址 


return _V; 


} 


get_dir () 函数 首先 确定 路 径 的 绝对 起 点 ， 
即 分 析 "/dev/tty0" 这 个 路 人 径 名 的 第 一 个 子 从 是 不 
E ° MRE, WEEN KA, AN 
从 根 i AARAL ° ANRT EE 
3.3.3 T PIRR FRANTA, ERREN A 


径 绝 对 起 点 ， 同 时 ， 它 被 引用 ， 其 引用 计数 也 随 
之 增加 。 这 部 分 执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname) /pathname 就 
是 路 径 /dev/tty0 的 指针 


{ 

char c; 

const char * thisname; 
struct m_inode * inode; 
struct buffer_head * bh; 
int namelen,inr,idev; 
struct dir_entry * de; 


if (! current->root||! current->root->i_count) /当前 进程 的 根 i 节 
上 氮 不 存在 或 引用 计数 为 0， 死 机 


panic ("No root inode") ; 
if (! current->pwd||! current->pwd-> i_count) 


/当前 进程 的 当前 工作 目录 根 i 点 不 存在 或 引用 计数 为 0， 和 死机 


panic ("No cwd inode") ; 


if ( (c=get_fs -byte (pathname) ) ==) {// 此 处 识别 
出 "/dev/tty0" 这 个 路 径 的 第 一 个 字符 是 六 


inode=current- > root; 

pathname++; 

selse if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 


inode->i_countt+; // 该 i 节点 的 引用 计数 也 随 之 加 1 


确定 路 径 起 点 的 情景 如 图 4-3 所 示 。 
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MIRIT 点 开始 ， 通 历 并 解析 "dewtty0" 这 个 路 
人 径 名 ， 首 先 会 解析 到 dev 这 个 目录 项 ， 之 后 将 在 虚 
拟 副 上 找到 这 个 目录 项 所 在 的 逻辑 块 ， 并 读 进 指 
定 的 缓冲 块 ， 具 体 解 析 过 程 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname) 


{ 


char c; 


const char * thisname; //thisname 记 如 目录 项 名 字 前 面 /' 的 地 址 
struct m_inode * inode; 
struct buffer_head * bh; 


int namelen,inr,idev; /namelen 记 录 名 字 的 长 度 


struct dir_entry * de; //de 用 来 指向 目录 项 内 容 
if ( (c=get fs byte (pathname) ) =='') { 
inode=current- > root; 


pathname++; //pathname 原 本 是 /dev/tty0 这 个 字符 串 中 第 一 个 字符 
的 指针 ， 即 指向 +，++ 后 指 同 'd 


}else if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 


inode- > i_count++; 


while (1) {/ 循 环 以 下 过 程 ， 直 到 找到 极 梢 i 节 点 为 止 
thisname=pathname; //thisnamet 248 [4I'd' 


if (! S_ISDIR (inode->i_mode) ||! permission 
(inode,MAY_EXEC) ) { 


iput (inode) ; 
return NULL; 


} 


/每 当 检 索 到 字符 串 中 的 /字符 ， 或 者 c 为 \0'， 循 环 都 会 跳出 


for (namelen=0; (c=get fs byte (pathname++) ) && (c! 
='/") ; namelen++) 


/*nothing*/; /注意 这 个 分 号 

if (! œ) 

return inode; 

NE H RUFIE AA SR, RA H Ki 

if (! (bh=find entry (&inode,thisname,namelen, &de) ) ) { 
iput (inode) ; 

return NULL; 


} 


inr=de- > inode; 

idev=inode- > i_dev; 

brelse (bh) ; 

iput (inode) ; 

if (! (inode=iget (idev,inr) ) ) 
return NULL; 

} 


} 


get_fs byte () 函数 再 次 被 用 到 ， 从 /dev/tty0 
路 径 名 dev 的 'd' 字 符 开始 遍历 ， 般 到 "后 跳出 循 
环 ，namelen 数 值 累加 为 3。 这 些 信 息 将 和 根 i 节 点 
指针 一 起 ， 作 为 find_entry () WANS RUH AA ° 
find_entry () 函数 会 将 目 孙 所 在 的 逻辑 块 读 入 绥 
冲 块 。 


此 处 值得 注意 的 是 ， 上 面 代 码 中 find_entry 
() 函数 最 后 一 个 参数 de 所 指向 的 数据 结构 是 目 
采 项 结构 ， 代 码 如 下 : 


// 代 码 位 置 : /include/linux/fs.h 
#define NAME _ LEN 14 


struct dir_entry{// 目 好 项 结构 


unsigned short inode; // 目 录 项 所 对 应 目录 文件 在 设备 上 的 i 节点 号 
char name[NAME_LEN]; /目录 项 名 字 ，14 字 三 


}; 


得 到 了 i 节点 号 ， 就 可 以 得 到 “dev” 目 录 项 所 对 
应 目录 文件 的 节点， 内 核 就 可 以 进而 通过 i 节点 找 
到 dev 目 录 文 件 。 获 取 i 节点 的 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname) 


if ( (c=get_fs_byte (pathname) ) =='') { 
inode=current- > root; 

pathname++; 

}else if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 

inode- > i_count++; 

while (1) {/ 循 环 以 下 过 程 ， 直 到 找到 枝 梢 i 节 点 为 止 
thisname=pathname; 


if (! S_ISDIR (inode->i_mode) ||! permission 
(inode,MAY_EXEC) ) { 


iput (inode) ; 


return NULL; 


for (namelen=0; (c=get fs byte (pathname++) ) && (c! 
=") ; namelen++) 


/*nothing*/; 
if (! ¢) 
return inode; 


if (! (bh=find entry (&inode,thisname,namelen, &de) ) ) 
{//de fa [al dev H RI 


iput (inode) ; 
return NULL; 


} 


inr=de-> inode; // 通 过 日 如 项 找到 i 方 


idev=inode->i_dev; /注意 ， 这 个 inode 是 根 证 点 ， 这 里 通过 根 i 节 
点 找到 设备 号 


brelse (bh) ; 
iput (inode) ; 


if (! (inode=iget (idev,inr) ) ) // 将 dev 目 录 文 件 的 i 节点 保存 在 
inode_table[32] 的 指定 表 项 内 并 将 该 表 项 指针 返回 


return NULL; 


inode_table[32] 用 来 管理 所 有 被 打开 文件 的 iTP 
点 ; iget () 函数 根据 i 节点 号 和 设备 号 ， 将 文件 i 
“2% A inode_table[32] ° 
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图 4-5 所 示 。 
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根据 目录 文件 i 区 点 和 目录 名 说 明 最 后 一 次 循环 得 到 的 i 节 点 


信息 ， 获 取 目 录 文 牢 中 的 目录 多 LEERI Se MEE 


从 目录 名 中 获取 目录 名 
对 应 目录 文件 的 i 节 点 号 


根据 i 节 点 号 和 设备 号 ， 
获得 下 一 级 目录 文件 i 节 点 


4-5 获取 梳 梢 i 节点、 目标 文件 1 节点 的 执行 
路 线 图 


HRM ` HRUPA FT RIRH, 


在 第 3 章 3.3.3 节 中 已 经 介绍 。 


继续 遍历 并 解析 "dewtty0" 这 个 路 径 名 。 解 析 
的 技术 路 线 与 前 面 解析 dev 目 孙 项 一 致 ， 但 结果 有 
所 不 同 ， 具 体 执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * get_dir (const char * pathname) 


if ( (c=get_fs_byte (pathname) ) ==") { 
inode=current- > root; 


pathname++; 


}else if I 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 

inode- > i_count++; 

while (1) {/ 循 环 以 下 过 程 ， 直 到 找到 校 梢 i ALE 


thisname=pathname; /前 面 的 解析 工作 使 thisname 指 向 /dewtty0 路 径 
名 中 tty0 前 面 的 


if (! S_ISDIR (inode->i_mode) ||! permission 
(inode,MAY_EXEC) ) { 


iput (inode) ; 

return NULL; 

} 

URRE, BR CREE AT, CANOE IEA 


for (namelen=0; (c=get fs byte (pathnamet+) ) && (c! 
='") ; namelen++) 


/*nothing*/; 
if (! c) 


return inode; /- RSI 点 返回 


if (! (bh=find entry (&inode,thisname,namelen, &de) ) ) { 
iput (inode) ; 

return NULL; 

} 

inr=de- > inode; 

idev=inode- > i_dev; 

brelse (bh) ; 

iput (inode) ; 

if (! (inode=iget (idev,inr) ) ) 
return NULL; 

} 


} 


CHEME, FRAIRE LAE, W 
到 \0'，c=get_fs_byte (pathname++) 这 个 条 件 为 
假 ， 跳 出 循环 。 这 意味 看 届 历 时 最 近 一 次 检测 到 
的 /， 证 此 字符 串 中 最 后 一 个 /; 它 后 面 的 tty0 职 


征 目 标 文件 的 文件 名 ， 这 个 文件 名 存储 在 /表面 
dev H RFF AItty0 A RII; 通过 dev 目 录 文 
件 ， 束 可 以 最 终 找到 tty0 文 件 。 我 们 将 dev 目 录 文 
FASE, AASHTO ° 


获取 权 梢 iT 点 后 ， 还 需要 确定 目标 文件 目 永 
名 的 “ 首 字 符 地 址 ”和 “名 字 长 度 " 这 两 个 信息 ， 用 它 
们 与 虚拟 盘 中 存储 的 目 孙 名 进行 比 对 。 这 样 ， 
ROBIT 点 开展 的 工作 束 完 成 了 。 多 取 目 永 名 信 
轧 的 代码 如 下 : 


/代码 路 径 : fs/namei.c: 

static struct m_inode * dir_namei (const char * pathname, 
int * namelen,const char ** name) 

{ 

char c; 


const char * basename; 


struct m_inode * dir; 

if (! (dir=get_dir (pathname) ) ) RUT SANT AR 
return NULL; 

basename=pathname; 


/逐个 笛 历 /dewtty0 字 符 串 ， 每 次 循环 都 将 一 个 字符 复制 给 c， 直 到 
FFT RAER 


while (c=get_fs_byte (pathnamet++) ) 

if (c=="") 

basename=pathname; 

*namelen=pathname-basename-1; /确定 tty0 名 字 的 长 度 
*name=basename; /得 到 tty0 中 第 一 个 字符 的 地 址 
return dir; 


} 


5 HARE ttyO SC FATT 


BT BRE H PR SC PRT ACES 5 Bi EAR 
BUSCH TS EIT CRS AER RAR BL, tent 


过 调用 find_entry () 函数 ， 将 目标 文件 的 目录 项 
(tty0) 载 入 缓冲 块 ， 并 从 目 孙 项 中 获得 i 点 
号 ， 再 调用 iget () 函数 ， 通 过 iT 点 号 和 设备 号 ， 
FEA ee FARR yO PAT A, BER LIT 

返回 ， 执 行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 

int open_namei (const char * pathname,int flag,int mode, 
struct m_inode ** res_inode) 

{ 

const char * basename; 

int inr,dev,namelen; 

struct m_inode * dir, *inode; 

struct buffer_head * bh; 

struct dir_entry * de; 


if ( (flag&O_TRUNC) &&! (flag&O_ACCMODE) ) 


flag|=O_WRONLY; 
mode &=0777 & ~current- > umask; 
mode|=I_REGULAR; 


if (! (dir=dir namei (pathname, &namelen, & 
basename) ) ) 448] T ROKIT A 


return-ENOENT; 

if (! namelen) {/*special case: '/usr/'etc*/ 

if (! (flag& (O_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 

return 0; 

} 

iput (dir) ; 

return-EISDIR; 

} 


// 通 过 校 梢 市 后， 以 及 掌握 的 关于 tty0 的 情况 ， 将 tty0 这 一 目录 项 
载 入 缓冲 块 ，de 指 向 tty0 目 录 项 


bh=find_entry (&dir,basename,namelen, &de) ; 


if (! bh) {/ttyOR RAEI YS, RIRS REA, if PLL AS 


if (! (flag&O_CREAT) ) { 
iput (dir) ; 

return-ENOENT; 

} 

if (! permission (dir.MAY_WRITE) ) { 
iput (dir) ; 

return-EACCES; 

} 

inode=new_inode (dir->i_dev) ; 
if (! inode) { 

iput (dir) ; 

return-ENOSPC; 

} 

inode- > i_uid=current- > euid; 
inode- > i_mode=mode; 

inode- > i_dirt=1; 


bh=add_entry (dir,basename,namelen, &de) ; 


if (! bh) { 

inode- > i_nlinks--; 

iput (inode) ; 

iput (dir) ; 

return-ENOSPC; 

} 

de- > inode=inode- > i_num; 
bh- > b_dirt=1; 

brelse (bh) ; 

iput (dir) ; 
*res_inode=inode; 

return 0; 

} 

inr=de- > inode; // 得 到 i 节点 号 
dev=dir->i_dev; // 得 到 虚拟 副 的 设备 号 
brelse (bh) ; 


iput (dir) ; 


if (flag&O_EXCL) 

return-EEXIST; 

if (! (inode=iget (dev,inr) ) ) /tty0 这 个 文件 的 i 节点 
return-EACCES; 


if ( (S_ISDIR (inode->i_mode) && (flag& 
O_ACCMODE) ) || 


! permission (inode,ACC_MODE (flag) ) ) { 
iput (inode) ; 


return-EPERM; 


inode- > i_atime=CURRENT_TIME; 

if (flag&O_TRUNC) 

truncate (inode) ; 

*res_inode=inode; $} HiT RIRA sys_open 


return 0; 


查找 tty0 文 件 i 太 点 的 情景 如 图 4-6 所 示 。 
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4-6 ”查找 tty0 文 件 节 点 
6. 人 确定 tty0 是 字符 设备 文件 


itty LET AJS Ei mode, SNE 
是 设备 文件 ， 再 通过 i 广 点 中 的 i_zone[0]， 确 定 设 


as, 并 对 current- >tty 和 tty_table 进 行 设 置 执行 
代码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


if ( (i=open_namei (filename, flag,mode, &inode) ) <0) { 
current- > filp[fdJ=NULL; 

f- > f£_count=0; 

return i; 

} 

/*ttys are somewhat special (ttyxx major==4, tty major==5) */ 


if (S_ISCHR (inode->i_mode) ) // 通 过 检测 tty0 文 件 的 i 节点 属 
性 ， 得 知 它 是 设备 文件 


if (MAJOR (inode->i zone[0]) ==4) {// 得 知 设备 号 是 4 


if (current->leader& &current->tty<0) { 


/设置 当前 进程 的 tty 豆 为 该 1 点 的 子 设备 号 


current- > tty=MINOR (inode->i_zone[0]) ; 


/设置 当前 进程 ty 对 应 的 tty 表 项 的 父 进 程 组 号 为 进程 的 父 进 程 组 号 
tty _table[current- > tty].pgrp=current- > pgrp; 

} 

yelse if (MAJOR (inode->i_zone[0]) ==5) 

if (current->tty<0O) { 

iput (inode) ; 

current- > filp[fdJ=NULL; 

f- > f_count=0; 

return-EPERM; 

} 

/*Likewise with block-devices: check for floppy_change*/ 
if (S_ISBLK (inode->i_mode) ) 

check _disk_change (inode->i_zone[0]) ; 

f- > £_mode=inode- > i_mode; 


f- > f_flags=flag; 


f- > f_count=1; 

f- > f_inode=inode; 
f- > f_pos=0; 
retum (fd) ; 


} 


对 i 节点 属性 进行 分 析 和 相关 设置 的 情景 如 图 
4-7 所 示 。 
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7. 设 置 file table[0] 


sys_open () 最 后 要 针对 file_table[64] 中 与 进 
ann 的 表 项 file_table[0] 进 行 设置 。 
样 ， 系 统 通 过 file_table[64]， 建 立 了 i pe 
件 (标准 输入 设备 文件 ) i 节点 的 对 应 关系 。 执 行 
代码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


if ( (i=open_namei (filename, flag,mode, Szinode) ) <0) { 
current- > filp[fdJ=NULL; 

f- > f£_count=0; 

return i; 

} 

/*ttys are somewhat special (ttyxx major==4, tty major==5) */ 
if (S_ISCHR (inode->i_mode) ) 

if (MAJOR (inode->i_zone[0]) ==4) { 

if (current->leader& &current->tty<0) { 

current- > tty=MINOR (inode->i_zone[0]) ; 

tty _table[current- > tty].pgrp=current- > pgrp; 

} 

Jelse if (MAJOR (inode->i_zone[0]) ==5) 

if (current->tty <0) { 

iput (inode) ; 

current- > filp[fdJ=NULL; 


f- > f_count=0; 


return-EPERM; 

} 

/*Likewise with block-devices: check for floppy_change*/ 
if (S_ISBLK (inode->i_mode) ) 

check _disk_change (inode->i_zone[0]) ; 
f->f_mode=inode->i_mode; /用 该 节点 属性 ， 设 置 文件 属性 
f- >f flags=flag; /用 flag 参 数 ， 设 置 文件 标识 
f->f_count=1; // 将 文件 引用 计数 加 1 

f- >f_inode=inode; // 文 件 与 i 让 点 建立 关系 

f->f_pos=0; /将 文件 读 写 指针 设置 为 0 

return (fd) ; 


} 


设置 file_table[0] 及 返回 文件 句柄 的 情景 如 图 4- 
8 所 示 。 
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图 4-8 设置 fe _ tablef0] 及 退回 文件 句柄 


4.1.2 ”打开 标准 和 输出、 标准 销 误 输出 设备 
文件 


4.1.1 下 讲 解 了 通过 open O 函数 打开 标准 
输入 设备 文件 。 下面 要 打开 标准 输出、 标准 销 误 
输出 设备 文件 ， 不 同 之 处 在 于 这 里 用 的 是 复制 文 
件 句 柄 的 方法 。 


open () 男 数 返 回 后 ， 进 程 1 在 tty0 文 件 已 经 
被 打开 的 基础 上 ， 通 过 调用 dup O 函数 ， 复 制 文 
件 句 柄 ， 一 共 复 制 了 两 次 。 


一 次 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void) 


{ 

int pid,i; 

setup ( (void *) Sdrive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; /复制 句柄 ， 构 建 标 准 输出 设备 

(void) dup (0) ; 

printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (1 (pid=fork () ) ) {Wif 下 为 进程 2 的 代码 
close (0) ; 

if (open ("/etc/rc", O_RDONLY, 0) ) 

_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 

_exit (2) ; 


} 


if (pid>0) 
while (pid! =wait (&i) ) 
/*nothing*/; 


ee 


dup () 本 数 最 终 会 映射 到 sys_dup () 这 个 
系统 调用 函 数 中 〈 这 一 映射 过 程 气 open () 函数 
到 sys_open () 画 数 的 英 射 过 程 大 体 一 致 ) ， 并 
调用 到 dupfd () 函数 中 ， 复 制 文件 句柄 ， 执 行 代 
码 如 下 : 


/代码 路 径 : fs/fcntl.c: 

int sys_dup (unsigned int fildes) //dup 对 应 的 系统 调用 函数 
{ 

return dupfd (fildes, 0) ; /执行 复制 句柄 


} 


确定 具备 复制 条 件 后 ， 在 进程 1 的 flp[20] 中 寻 
找到 空 几 项 ， 此 时 会 找到 第 二 项 。 即 科 p[1]。 将 
filp[0] 中 存储 的 tty0 文 件 指针 复制 进 filp[1 中 ， 并 
将 fle_table[0] 中 f_count 文 件 引 用 计数 这 一 字段 的 
数值 罕 加 为 2， 以 此 获得 进程 1 打开 标准 输出 设备 
文件 tty0 的 效果 。 执 行 代 码 如 下 : 


/代码 路 径 : fs/fcntl.c: 
static int dupfd (unsigned int fd,unsigned int arg) 


{ 


if (fd>=NR_OPEN||! current- > filp[fd]) /检测 是 否 具备 复制 文件 
句柄 的 条 件 


return-EBADF; 
if (arg >=NR_OPEN) 
return-EINVAL; 


while (arg < NR_OPEN) 


if (current-> filp[arg]) /在 进程 1 的 fp[20] 中 寻找 空闲 项 (此 时 是 
第 二 项 ) ， 以 便 复制 


arg++; 
else 

break; 

if (arg>=NR_OPEN) 
return-EMFILE; 


current- > close on exec&=~ (1< < arg) ; 


// 复 制 文 件 句柄 ， 建 立 标准 输出 设备 ， 并 相应 增加 文件 引用 计数 ， 
f_count 为 2 


(current- > filpLarg]=current- > filp[fd]) ->f_countt++; 
return arg; 


} 


打开 标准 输出 设备 文件 的 情景 如 图 4-9 所 示 。 
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Al 4-9 复制 文件 句柄 ， 打 开标 准 输出 设备 文件 


dup 返 回 后 ， 进 程 1 再 次 调用 dup () AL, B 
二 次 复制 文件 句柄 ， 构 建 标准 销 误 输出 设备 。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void) 


int pid,i; 

setup ( (void *) Sdrive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; /复制 句柄 ， 构 建 标 准 输出 设备 

(void) dup (0) ; /继续 复制 句柄 ， 构 建 标准 错误 输出 设备 
printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (1 (pid=fork () ) ) {Wif 下 为 进程 2 的 代码 
close (0) ; 

if (open ("/etc/rc", O_RDONLY, 0) ) 

_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 

_exit (2) ; 


} 


if (pid>0) 
while (pid! =wait (&i) ) 
/*nothing*/; 


再 次 执行 到 dupfd O 函数 中 ， 与 前 面 的 技术 
路 线 完 全 一 致 ， 内 核 还 会 在 进程 1 的 flp[20] 中 寻找 
空 内 项 ， 但 这 次 找到 的 是 第 三 项 ， 即 filp[2]。 与 前 
面相 同 ， 将 filp[0] 中 存储 的 tty0 文 件 指 夺 复制 进 
filp[2] 中 ， 并 将 fle_table[0] 中 f_count 文 件 引 用 计数 
这 一 字段 的 数值 于 加 为 3， 以 此 获得 进程 1 已 经 打 
开标 准 蚀 计 输 出 设备 文件 的 相同 效 末 。 


执行 代码 如 下 : 


/代码 路 径 : fs/fentl.c: 


static int dupfd (unsigned int fd,unsigned int arg) 


{ 


if (fd>=NR_OPEN||! current- > filp[fd]) /检测 是 否 具备 复制 文件 
句柄 的 条 件 


return-EBADF; 

if (arg>=NR_OPEN) 
return-EINVAL; 

while (arg < NR_OPEN) 


if (current-> filp[arg]) /在 进程 1 的 身 p 中 寻找 空 内 项 (此 时 是 第 二 
项 ) ， 以 便 复制 


arg++; 

else 

break; 

if (arg>=NR_OPEN) 
return-EMFILE; 


current- > close on exec&=~ (1< < arg) ; 


/复制 文件 句柄 ， 建 立 标准 错误 输出 设备 ， 继 续 增 加 文件 引用 计 
数 ，f_count 为 3 


(current- > filpLarg]=current- > filp[fd]) ->f_countt++; 


return arg; 


} 


打开 标准 稍 充 输出 设备 文件 的 情景 如 匈 4-10 
ITA ° 
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Al 4-10 再 次 复制 文件 名 柄 ， 打 开标 准 销 充 输 
出 设备 文件 


至 此 ， 创 建 shell 折 需要 的 终端 标准 输入 设备 
文件 、 标 准 输 出 设备 文件 和 标准 错误 输出 设备 文 
件 都 已 经 打开 ， 这 也 意味 痢 此 后 可 以 在 程序 中 使 
用 printf () Kkt- (stdio.h 中 的 stdio 就 是 standard 


input/output 的 意思 ) 


4.2 进程 1 创建 进程 2 并 切换 到 进程 2 


接 下 来 ， 进 程 1 将 调用 fork O 函数 ， 创 建 进 


程 2。 


执行 代码 如 下 : 


/代码 路 径 : init/main.c: 

void init (void) 

{ 

int pid,i; 

setup ( (void*) &drive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 


(void) dup (0) ; 


printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR __BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (! (pid=fork O ) ) {/ 进 程 1 创建 进程 2 
close (0) ; 

if (open ("/etc/rc", O_RDONLY, 0) ) 
_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 

_exit (2) ; 

} 

if (pid>0) 

while (pid! =wait (&i) ) 

/*nothing*/; 


fork 映 里 到 sys_fork 的 过 程 ， 本 书 3.1.1 广 中 已 
经 介绍 。 这 里 的 执行 过 程 是 一 致 的 ， 即 调用 
find_empty_process () 画 数 ， 为 进程 2 寻找 空 朵 
的 task， 之 后 调用 copy_process O 函数 ， 复 制 进 
程 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 
.align 2 

_syS_execve: 

lea EIP (%esp) , %eax 

pushl %eax 

call _do_execve 

addl $4, %esp 


ret 


du 


.align 2 


_sys_fork: 


call _find_empty_process// 为 进程 2 寻找 空 闻 task， 并 确定 新 的 进程 


testl %eax, %eax 
js 1f 

push %gs 

pushl %esi 

pushl %edi 

pushl %ebp 
pushl %eax 

call _copy_process// 复 制 进程 2 
addl $20，%esp 
1: ret 
_hd_interrupt: 
pushl %eax 


pushl %ecx 


pushl %edx 

push %ds 

push %es 

push %fs 

movl $0x10, %eax 
mov %ax, %ds 
mov %ax, %es 
movl $0x17, %eax 
mov %ax, %fs 
movb $0x20, %al 
outb %al, $0xAO#EOI to interrupt controller#1 


jmp 1f#give port chance to breathe 


寻找 新 task 的 情景 如 图 4-11 所 示 : 


task_ struct, 


amt 0x9FFFF OxFFFFF Ox3FFFFF OxSFFFFF 


+. 


= 


4-11 ”寻找 新 task 


进入 copy_process () 函数 后 ， 
task_struct 以 及 内 核 栈 申请 页 面 ， 并 复制 
随后 对 进程 2 的 task_struct 进 
性 化 设置 ， 包 括 各 个 寄存 名 


管理 设置 、 共 至 


OxFFFFFF 


(es) 


会 为 进程 2 的 


并行 各 种 个 


的 设置 、 内 存 页面 的 
文件 的 设置 、GDT 表 项 的 设置 


等 。 其 设置 过 程 与 本 书 第 3 章 3.1 节 中 进程 0 创建 
程 1 的 过 程 大 体 一 致 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 

long fs,long es,long ds, 

long eip,long cs,long eflags,long esp,long ss) 

{ 

struct task_struct * p; 

int i; 

struct file * f; 

p= (struct task_struct *) get_free page () ; /为 进程 2 申请 页 面 
if (! p) 

return-EAGAIN; 


task[nr]=p; /确定 进程 2 task_struct 的 地 址 指针 载 入 task 指 定位 置 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/// 复 制 
task_struct 结 构 


p-> state=TASK_UNINTERRUPTIBLE; /设置 进程 2 为 不 可 中 断 等 
竺 状态 


p->pid=last_pid;，V/ 对 进程 2 进行 个 性 化 设置 
p- > father=current- > pid; 

p- > counter=p- > priority; 

p- > signal=0; 

p- > alarm=0; 

p-> leader=0; /*process leadership doesn't inherit*/ 
p- > utime=p- > stime=0; 

p-> cutime=p- > cstime=0; 

p-> start_time5jiffies; 

p-> tss.back_link=0; 

p-> tss.esp0=PAGE_SIZE+ (long) p; 

p- > tss.ss0=0x10; 

p- > tss.eip=eip; 


p- > tss.eflags=eflags; 


p- > tss.eax=0; 

p- > tss.ecx=ecx; 

p- > tss.edx=edx; 

p- > tss.ebx=ebx; 

p-> tss.esp=esp; 

p- > tss.ebp=ebp; 

p- > tss.esi=esi; 

p- > tss.edi=edi; 

p-> tss.es=es & Oxffff; 
p-> tss.cs=cs & Oxffff; 

p- > tss.ss=ss & Oxffff; 

p- > tss.ds=ds & Oxffff; 
p-> tss.fs=fs Sz Oxffff; 

p- > tss.gs=gs & Oxffff; 
p->tss.ldt=_LDT (nr) ; 
p- > tss.trace_bitmap=0x80000000; 


if (last task used math==current) 


_asm ("clts; fnsave%0": "m" (p-> tss.i387) ) ; 
if (copy_mem (nr,p) ) {/ 设 置 进程 2 的 分 页 管理 
task[nrJ=NULL; 

free_page ( (long) p) ; 

return-EAGAIN; 

} 

for (i=0; i<NR_OPEN; i++) /以 下 为 进程 2 共享 进程 1 的 文件 
if (f=p-> filp[i]) 

f- > f_count++; 

if (current-> pwd) 

current- > pwd- > i_count++; 

if (current-> root) 

current- > root- > i_count++; 

if (current- > executable) 

current- > executable- > i_count++; 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ ENTRY, & (p-> 
tss) ) ; /设置 进程 2 在 


set_Idt_desc (gdt+ (nr<<1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; /GDT 中 的 表 项 


p-> state=TASK_RUNNING; /*do this last,just in case*/// 设 置 进程 2 
NAS 


return last_pid; 


} 


复制 进程 及 部 分 个 性 化 设置 的 情景 如 图 4-12 
所 示 。 
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Al 4-12 复制 进程 及 部 分 设置 


为 进程 2 复制 页 表 和 设置 页 目录 项 的 情景 如 图 
4-13 所 示 。 
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对 进程 2 共享 进程 1 的 文件 进行 调整 的 情景 如 
图 4-14 所 示 。 


进程 2 创建 完毕 后 ，fork O ERROR, 3E] 
值 为 2， 因 此 ! (pid=fork () ) 值 为 假 (理由 在 
本 书 3.1.7 廊 中 已 经 介绍 ， 于 是 调用 wait () K 
数 。 此 函数 的 功能 是 : 如 果 进 程 1 有 等 待 退出 的 子 
进程 ， 就 为 该 进程 的 退出 做 善后 工作 ;如 果 有 子 
进程 ， 但 并 不 等 竺 退出 ， 则 进行 进程 切换 ， 如 果 
THE, KZOE] o 
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图 4-14 调整 进程 2 共享 进程 1 的 文件 


执行 代码 如 下 : 


// 代 人 码 路 径 : init/main.c: 
void init (void) 


{ 


int pid,i; 

setup ( (void *) S&drive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; 

(void) dup (0) ; 

printf ("%d buffers=%d bytes buffer space\n\r", NR _BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (! (pid=fork () ) ) /括号 里 面 为 进程 2 执行 的 代码 
close (0) ; 

if (open ("/etc/rc", O_RDONLY, 0) ) 

_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_tc) ; 


exit (2) ; 


if (pid>0) 


while (pid! =wait (Sci) ) /进程 1 等 待 子 进 程 退 出 ， 最 终 会 切换 
到 进程 2 执行 


/*nothing*/; 


ee ee 


wait () KARA SARA El A AY Es 2 
sys_waitpid () UT, BRT ZS fork? 
nie ° sys_waitpid () PRATER AT 
有 的 进程 进行 笛 历 ， 先 确定 哪个 进程 是 进程 1 的 于 

进程 ， 由 于 进程 1 刚刚 创建 了 子 进 程 ， 即 进程 2， 
于 古 进 程 2 被 选中 了 了， 执行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int 
options) /wait 对 应 sys_waitpid 系 统 调用 


{ 


int flag,code; 


struct task_struct ** p; 

verify area (stat_addr, 4) ; 

repeat: 

flag=0; 

for (p=&LAST_TASK; p>&FIRST_TASK; --p) { 
if (! *p|\*p==current) 

continue; 


if ( (*p) -> father! =current-> pid) //imzeth 4 ANAE, BER 
的 子 进 程 ， 此 时 会 是 进程 2 


Continue; 

if (pid>0) { 

if ( (*p) ->pid! =pid) 

continue; 

yelse if (! pid) { 

if ( (*p) ->pgrp! =current-> pgrp) 
continue; 


else if (pid! =-1) { 


if ( (*p) ->pgrp! =-pid) 

continue; 

} 

switch ( (*p) ->state) {/ 判 断 进程 2 的 状态 

case TASK_STOPPED: /如 果 进 程 2 是 停止 状态 ， 将 在 这 里 处 理 
if (! (options&WUNTRACED) ) 

continue; 

put _fs_long (Ox7f,stat_addr) ; 


return (*p) ->pid; 


case TASK_ZOMBIE: /如 采 进 程 2 是 僵 死 状态 ， 将 在 这 里 处 理 
current- > cutime+= (*p) -> utime:; 

current- > cstime+= (*p) ->stime; 

flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 

put fs long (code,stat_addr) ; 


return flag; 


default: // 此 时 进程 2 是 就 绪 态 ， 所 以 到 这 里 去 执行 ， 将 flag 标 志 设 
置 为 1 并 跳出 循环 


flag= 1; 


continue; 


ee ee 


得 找 进程 1 的 子 进 程 的 情景 如 图 4-15 所 示 。 
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图 4-15 查找 进程 1 的 子 进程 


// 代 码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int 
options) /wait 对 应 sys_waitpid 系 统 调用 


{ 
int flag,code; 
struct task_struct ** p; 


verify _area (stat_addr, 4) ; 


repeat: 

flag=0; 

for (p=&LAST_TASK; p>&FIRST_TASK; --p) { 
if (! *p||*p==current) 

continue; 


if ( (*p) -> father! =current-> pid) Vt iH 4 ANAE, Bde Re1 
的 子 进 程 ， 此 时 会 是 进程 2 


Continue; 

if (pid>0) { 

if ( (*p) ->pid! =pid) 

continue; 

Jelse if (! pid) { 

if ( (*p) ->pgrp! =current-> perp) 
continue; 

yelse if (pid! =-1) { 

if ( (*p) ->pgrp! =-pid) 


continue; 


} 

switch ( (*p) ->state) {/ 判 断 进程 2 的 状态 

case TASK_STOPPED: /如 果 进 程 2 是 停止 状态 ， 将 在 这 里 处 理 
if (! (options&WUNTRACED) ) 

continue; 

put _fs_long (Ox7f,stat_addr) ; 


return (*p) ->pid; 


case TASK_ZOMBIE: /如 采 进 程 2 是 僵 死 状态 ， 将 在 这 里 处 理 
current- > cutime+= (*p) ->utime; 

current- > cstime+= (*p) ->stime; 

flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 

put _fs_long (code,stat_addr) ; 


return flag; 


default: /此 时 进程 2 是 天线 态 ， 所 以 到 这 里 来 执行 ， 将 fag 标 志 设 
置 为 1 并 跳出 循环 


flag= 1; 


continue; 


判断 进程 2 的 状态 并 设置 flag 标 志 的 情景 如 图 
4-16 所 示 。 
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图 4-16 判断 进程 2 的 状态 并 设置 flag 标 志 


进入 if (flag) 去 执行 ， 内 核 完 将 进程 1 的 状 
人 态 设置 为 可 中 断 等 待 状态 ， 之 后 ， 就 调用 schedule 
O 画 数 切换 进程 ， 此 时 唯一 处 于 就 绪 态 的 是 进 
程 2， 因 此 ， 代 码 将 切换 到 进程 2 去 执行 (schedule 
的 执行 过 程 已 在 第 3 章 3.2 节 中 介绍 ) ， 执 行 代码 
如 下 : 


/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int 
options) /wait 对 应 sys_waitpid 系 统 调用 


ee ee 


switch ( (*p) ->state) {// 判 断 进程 2 的 状态 
case TASK_STOPPED: /如 果 进 程 2 是 停止 状态 ， 将 在 这 里 处 理 


if (! (options&WUNTRACED) ) 


Continue; 
put _fs_long (Ox7f,stat_addr) ; 


return (*p) ->pid; 


case TASK_ZOMBIE: /如 采 进 程 2 是 僵 死 状态 ， 将 在 这 里 处 理 
current- > cutime+= (*p) ->utime; 

current- > cstime+= (*p) ->stime; 

flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 

put fs long (code,stat_addr) ; 


return flag; 


default: /IER JE 2 EMAS, PROB BORAT, flag tni 
置 为 1 并 跳出 循环 


flag= 1; 


continue; 


if (flag) { 
if (options& WNOHANG) 
return 0; 


current- > state=TASK_INTERRUPTIBLE; /此 时 得 知 进程 1 没有 退 
出 的 子 进 程 ， 所 以 将 其 设置 为 可 中 断 等 待 状态 


schedule () ; /切换 到 进程 2 去 执行 

if (! (curent->signal&=~ (1<< (SIGCHLD-1) ) ) ) 
goto repeat; 

else 

return-EINTR; 

} 


return-ECHILD; 


} 


切换 到 进程 2 的 情景 如 图 4-17 所 示 。 
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4.3 ”加 载 shell 程 序 


4.3.1 关闭 标准 输入 设备 文件 ， 打 开 rc 文 
IF 


轮转 到 进程 ?2 后， 进程 2 最 开始 的 执行 技术 路 
线 ， 与 本 书 3.3 了 中 介绍 的 轮转 到 进程 1 执行 的 技 
术 路 线 大 体 一 致 。 在 确定 让 〈! (pid=fork 
W ) ) 这 条 语句 中 条 件 为 真 后 ， 调 用 close () 
函数 来 天 闭 标 准 输 入 设备 文件 ， 并 用 rc 文件 准 换 
它 ， 执 行 代码 如 下 : 


// 代 码 路 径 : init/main.c: 
void init (void) 


{ 


int pid,i; 

setup ( (void *) S&drive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; 

(void) dup (0) ; 

printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (! (pid=fork () ) ) { 
close (0) ; /关闭 标准 输入 设备 文件 


if (open ("/etc/rc", O_RDONLY, 0) ) /用 rc 文件 替换 该 设备 文 
件 


_exit (1) ; 
execve ("/bin/sh", argv_rc,envp_rc) ; /加 载 shell 程 序 


_exit (2) ; 


if (pid>0) 


while (pid! =wait (&i) ) 
/*nothing*/; 


close () KARAZ Esys_close () 

数 中 执行 (与 前 面 讲解 的 其 他 以 sys_ 为 前 级 的 
数 类 似 ) 。 由 于 进程 2 继承 了 进程 1 的 管理 信息 ， 
因此 其 flp[20] 中 文件 指针 存储 情况 与 进程 1 是 一 致 
的 。close (0) 就 是 要 将 filp[20] 第 一 项 清空 (Gt 
是 关闭 标准 输入 设备 文件 tty0) ， 并 递减 
file_table[64] 中 f_countH 的 引用 计数 。 后 面 调用 open 
O 函数 ， 吏 会 在 flp[20] 中 选择 第 一 项 来 建立 进 
程 2 与 rc 文件 i 太 扣 的 天 系 ， 以 此 达到 “rc” 替 
换 “tty0” 的 效果 。rc 文 件 是 脚本 文件 ， 其 特点 是 ， 
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文件 中 记 承 看 一 些 信 人 
命令 来 确定 执行 任务 。 
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解析 这 些 


close () 函数 的 执行 代码 如 下 : 


/代码 路 径 : fs/open.c: 

int sys_close (unsigned int fd) /close 对 应 的 系统 调用 函数 
{ 

struct file * filp; 

if (fd>=NR_OPEN) 

return-EINVAL ; 

current- > close_on_exec&=~ (1<<fd) ; 


if (! (filp=current-> filp[fd]) ) /获取 进程 2 标准 输入 设备 文件 
的 指针 


return-EINVAL ; 
current- > filp[fd]=NULL; /进程 2 与 该 设备 文件 解除 关系 


if (filp- > f_count==0) 


panic ("Close: file count is 0") ; 

if (--filp->f_count) // 该 设备 文件 引用 计数 递减 
return (0) ; 

iput (filp->f_inode) ; 

return (0) ; 


} 


关闭 tty0 文 件 的 情景 如 图 4-18 所 示 。 
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图 4-18 关闭 tty0 文 件 


打开 rc 文件 的 情景 如 图 4-19 所 示 。 


图 4-19 打开 rc 文件 


rc 文件 打开 后 ， 进 程 2 将 调用 execve () 函数 
开始 加 载 shell 和 程序， 执行 代码 如 下 : 


/代码 路 径 : init/main.c: 

void init (void) 

{ 

int pid,i; 

setup ( (void *) S&drive_info) ; 

(void) open ("/dev/ttyO", O_RDWR, 0) ; 

(void) dup (0) ; 

(void) dup (0) ; 

printf ("%d buffers=%d bytes buffer space\n\r", NR_BUFFERS, 
NR _BUFFERS * BLOCK_SIZE) ; 


printf ("Free mem: %d bytes\n\r", memory_end- 
main_memory_start) ; 


if (! (pid=fork () ) ) { 


close (0) ; /关闭 标准 输入 设备 文件 


if (open ("/etc/rc", O_RDONLY, 0) ) // 用 rc 文件 替换 该 设备 文 
件 


_exit (1) ; 


/加 载 shell 程 序 ， 其 中 /bin/sh 为 shell 文 件 路 径 ，argv_rc 和 envp_rc 分 
别 是 参数 及 环境 变量 


execve ("/bin/sh", argv_rc,envp_rc) ; 
_exit (2) ; 

} 

if (pid>0) 

while (pid! =wait (&i) ) 
/*nothing*/; 


} 


值得 注意 的 是 ， 参 数 和 环境 变量 都 已 在 内 核 
代码 中 事先 准备 。 具 体 代 码 如 下 : 


/代码 路 径 : init/main.c: 


static char * argv_rc[]={"/bin/sh", NULL}; // 为 shell 进 程 准备 的 参 


static char * envp_rc[]={"HOME=/", NULL,NULL}; // 为 shell 进 程 
准备 的 环境 变量 


ee ee 


execve () KU SHR Bllsys_ execve () 
中 去 执行 ， 代 码 如 下 : 


// 代 码 路 径 : kernel/system_call.s: 
.align 2 
_sys_execve: /Wexecve 国 数 对 应 的 系统 调用 
lea EIP (%esp) , %eax 
pushl %eax// 把 EIP 值 “所 在 栈 空 间 的 地 址 值 ” 压 栈 
call _do_execve//do_execve 束 是 文 持 加 载 shell 程 序 的 主体 函数 
addl $4, %esp 


ret 


4.3.2 ”检测 shell 文 件 
1. 检 测 节 点 属性 


do_execve () 开始 执行 后 ， 先 调用 namei 
O 画 数 获取 shell 文 件 的 i 节点。 此 函数 获取 i 节点 
的 过 程 导 4.1.17 中 介绍 的 im 点 获取 过 程 大 体 一 
Me Za, WMT 点 属性 ， 以 此 确定 shel] 程 序 是 
否 具 备 加 载 条 件 。 具 体 代 码 如 下 : 


int do_execve (unsigned long * eip,long tmp,char * filename, 
char ** argv,char ** envp) 

{ 

struct m_inode * inode; 

struct buffer_head * bh; 


struct exec ex; 


unsigned long page[MAX_ARG_PAGES]; 

int i,argc,envc; 

int e_uid,e_gid; 

int retval; 

int sh_bang=0; 

unsigned long p=PAGE_SIZE * MAX_ARG_PAGES-4; 


if ( (OxffffSceip[1]) ! =0x000f) /通过 检测 特权 级 ， 来 判断 是 否 
是 内 核 调 用 了 do_execve 函 数 


panic ("execve called from supervisor mode") ; // 如 果 是 ， 就 会 死 


机 ， 显 然 现在 不 是 


for (i=0; i<MAX ARG PAGES; i++) /*clear page-table*/ 
pageli]=0; /将 参数 和 环境 变量 的 页 面 指针 管理 表 请 零 


if (! (inode=namei (filename) ) ) /*get executables inode*/// 获 


Wlshell FEF APE SC PFT TS AA 
return-ENOENT; 
argc=count (argv) ; /统计 参数 个 数 
envc=count (envp) ; /统计 环境 变量 个 数 


restart _interp: 


if (! S_ISREG (inode->i_mode) ) {/*must be regular file*/ 


retval=-EACCES; 
goto exec_error2; 
} 


i=inode->i_mode; /通过 检测 i 点 的 uid 和 gid 属性 ， 来 判断 进程 2 


e _uid= (i&S ISUID) ?inode->i uid: current-> euid; // 是 否 有 权 
限 执 行 shell 程 序 


e_gid= (i&S_ISGID) ?inode->i_gid: current- > egid; 


if (current- > euid==inode->i_uid) /通过 分 析 文 件 与 当前 进程 的 
从 属 关 系 ， 调 整 市 点 属性 中 的 权限 位 


i> >=6; 
else if (current- > egid==inode- > i_gid) 


i> >=3; 


if (! G&1) &&/M RA PIs URE TARY , MEH shell 
的 加 载 工 作 


! ( (inode->i_mode&0111) S&&suser () ) ) { 
retval=-ENOEXEC; 


goto exec_error2; 


获取 iT 点 信息 的 情景 如 图 4-20 所 示 。 
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今 测 i 太 扣 属性 的 情景 如 图 4-21 所 示 。 
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图 4-21 检测 i 节点 属性 


Ze RM shell CELT 点 的 属性 得 知 ， 进 程 2? 有 具 
备 执 行 该 文件 中 程序 的 条 件 。 


2. 检 测 文件 头 属 性 


通过 i 节点 中 提供 的 设备 号 和 块 号 (文件 头 的 
块 号 为 i_zone[0]) 信息 ， 将 文件 头 载 入 缓冲 块 并 


获取 其 信息 ， 如 图 4-22 和 图 4-23 所 示 。 执 行 代码 
如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename， 


char ** argv,char ** envp) 


ee ee 


if (! (i&1) && 


/如 果 用 户 没 有 权限 执行 该 程序 ， 则 退出 shell 的 加 载 工作 
! ( (inode->i_mode&0111) S&&suser () ) ) { 
retval=-ENOEXEC; 

goto exec_error2; 

} 


// 通 过 i 节点 ， 确 定 shell 文 件 所 在 设备 的 设备 号 及 其 文件 头 的 块 号 
(i_zone[0]) ， 获 取 文 件 头 


if (! (bh=bread (inode->i_dev,inode->i_zone[0]) ) ) { 


retval=-EACCES; 

goto exec_error2; 

} 

ex=* ( (struct exec *) bh->b_data) ; 从 缓冲 块 中 得 到 文件 头 的 


if ( (bh->b_data[O]=="#) && (bh->b datafiJ=='"!') && (! 
sh_bang) ) { 


brelse (bh) ; 
if (N MAGIC (ex) ! =ZMAGIC|lex.a_trsize||ex.a_drsizel| 
ex.a_textt+ex.a_datatex.a_bss > 0x3000000]| 


inode- > i_size < ex.a_text+ex.a_datatex.a_syms+N_TXTOFF 


(ex) ) { 
retval=-ENOEXEC; 
goto exec_error2; 
} 
if (N_TXTOFF (ex) ! =BLOCK_SIZE) { 


printk ("%s: N TXTOFF! =BLOCK_SIZE.See a.out.h.", 
filename) ; 


retval=-ENOEXEC; 

goto exec_error2; 

} 

if (! sh bang) { 

p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if (! p) { 

retval=-ENOMEM; 

goto exec_error2; 


} 
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Al 4-22 将 shel 文 件 头 读 入 缓冲 块 
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Al 4-23 获取 文件 头 


对 文件 头 的 信息 进行 检测 ， 以 此 进一步 确定 
shell 文 件 的 内 容 是 否 符 合 载 入 的 规定 。 代 码 如 
下 : 


// 代 码 路 径 : fs/exec.c: 


int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp) 


ee ee 


if (! G&1) 名 多 /如 果 用 户 没有 权限 执行 该 程序 ， 则 退出 shell 
的 加 载 工作 


! ( (inode->i_mode&0111) &&suser () ) ) { 
retval=-ENOEXEC; 

goto exec_error2; 

} 


/通过 i 节 点， 确定 shell 文 件 所 在 设备 的 设备 号 及 其 文件 头 的 块 号 
(i_zone[0]) ， 获 取 文 件 头 


if (! (bh=bread (inode->i dev,inode->i zone[0]) ) ) { 
retval=-EACCES; 

goto exec_error2; 

} 


ex=* ( (struct exec *) bh->b_ data) ; 从 缓冲 块 中 得 到 文件 头 的 


// 检 测 文件 涉 ， 得 知 shell 文 件 并 非 脚 本 文件 ， 所 以 if 里 面 的 内 容 不 
IT 


if ( (bh->b_data[O]=="#) && (bh->b datafiJ=='"!') && (! 
sh_bang) ) { 


ee 


brelse (bh) ; 


/通过 文件 头 中 的 信息 ， 检 测 shell 文 件 的 内 容 是 否 符合 执行 规定 
if (N_MAGIC (ex) ! =ZMAGICIlex.a_trsizellex.a_drsize|| 
ex.a_text+ex.a_data+ex.a_bss > 0x3000000]| 


inode- > i_size < ex.a_text+ex.a_datatex.a_syms+N_TXTOFF 


(ex) ) { 
retval=-ENOEXEC; 
goto exec_error2; 
} 
/如 果 文 件 头 大 小 不 等 于 1024B ， 程 序 也 不 能 执行 
if (N_TXTOFF (ex) ! =BLOCK_SIZE) { 


printk ("%s: N TXTOFF! =BLOCK_SIZE.See a.out.h.", 
filename) ; 


retval=-ENOEXEC; 
goto exec_error2; 


} 


if (! sh_bang) { 

p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if (! p) { 

retval=-ENOMEM; 

goto exec_error2; 


} 


rr oo 


今 测 文 件 头 属性 的 情景 如 图 4-24 所 示 。 


经 检测 shell 文 件 的 文件 头 属性 得 知 ，shell 交 
件 中 的 程序 具备 执行 条 件 。 


进程 0 进程 1 进程 2 


图 4-24 检测 文件 头 属性 


4.3.3 ”为 shell 程 序 的 执行 做 准备 


1. 加 载 参 数 和 环境 变量 


设置 参数 和 环境 变量 的 管理 指针 表 page， 并 
统计 参数 和 环境 变量 个 数 ， 最 终 将 它们 复制 并 映 
出 到 进程 2 的 栈 空间 中 。 


执行 代码 如 下 : 


// 代 码 路 径 : fs/exec.c: 

int do_execve (unsigned long * eip,long tmp,char * filename, 
char ** argv,char ** envp) 

{ 

struct m_inode * inode; 


struct buffer_head * bh; 


struct exec ex; 


unsigned long page[MAX_ARG_PAGES]; 
int i,argc,envc; 

int e_uid,e_gid; 

int retval; 

int sh_bang=0; 


unsigned long p=PAGE_SIZE * MAX_ARG PAGES-4; /设置 参数 
或 环境 变量 在 进程 空间 的 初始 偏 移 指 针 


for (i=0; i<MAX ARG PAGES; i++) /*clear page-table*/ 
pageliJ=0; /将 参数 和 环境 变量 的 页 面 指针 管理 表 请 零 
argc=count (argv) ; /统计 参数 个 数 


envc=count (envp) ; /统计 环境 变量 个 数 


ee ee 


p=copy_strings (envc,envp,page,p, 0) ; /将 环境 变量 复制 到 进程 


空间 


p=copy_strings (argc,argv,page,p, 0) ; /将 参数 复制 到 进程 空间 


if (! p) { 
retval=-ENOMEM;; 


goto exec_error2; 


ee ee 


// 在 进程 的 新 栈 空间 中 创建 参数 和 环境 变量 指针 管理 表 
p= (unsigned long) create tables ( (char *) p,argc,envc) ; 


ee ee 


加 载 参数 和 环境 变量 的 情景 如 图 4-25 一 网 4- 
28 所 示 。 
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Al 4-25 将 参数 和 环境 变量 的 载体 清 0 
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图 4-26 统计 参数 和 环境 变量 个 数 
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Al 4-27 复制 参数 和 环境 变量 
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图 428 Hee See a 
2. 调 整 进 程 2 的 管理 结构 


进程 2 有 了 目 己 对 应 的 程序 shell， 因 此 要 对 目 
号 task_struct 进 行 调整 以 适应 此 变化 。 比 如 ， 原 来 
与 其 父 进程 (进程 1) 共享 的 文件 、 内 存 页 面 ， 现 
在 要 解除 关系 ， 要 根据 shell 程 序 日 喘 情况 ， 量 刁 
定做 LDT， 并 设置 代码 段 、 效 据 段 、 栈 段 等 控制 


代码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 
char ** argv,char ** envp) 


{ 


if (! sh_bang) { 

p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if C! p) { 

retval=-ENOMEM; 

goto exec_error2; 

} 

} 


/*OK,This is the point of no return*/ 


if (current-> executable) /检测 进程 是 否 已 经 有 对 应 的 可 执行 程 
FF (executable 就 是 这 个 程序 所 在 文件 的 i 节点 ) 


iput (current- > executable) ; 


current- > executable=inode; // 此 时 肯定 没有 ， 所 以 用 shell 程 序 文 
件 的 i 节点 设置 executable 


for (i=0; i<32; i++) 


current- > sigaction[i].sa_handler=NULL; /将 进程 2 的 信号 管理 结 
构 全 部 清 NULL 


for (i=0; i<NR OPEN: i++) 


f ( (current->close_on_exec> >i) &1) //dlose_on exec 所 标识 


的 打开 的 六 从 现在 都 要 关闭 
sys _close (i) ; 


current->close_on_exec=0; // 并 将 close_on exec 所 有 位 清 零 


// 解 除 进 程 2 与 进程 1 共享 的 页 面 天 系 


free _page_tables (get base (current->1dt[1]) , get limit 
(Ox0f) ) ; 


free _page_tables (get_base (current->Idt[2]) , get limit 
(0x17) ) ; 


if (last task used math==current) 
last _task_used_math=NULL; 


current- >used_math=0; /将 进程 2 的 数学 协 处 理 需 的 使 用 标志 清 


Be 
< 


p+=change_ldt (ex.a text,page) -MAX ARG PAGES * 
PAGE_SIZE; /重新 设置 进程 2 的 局 部 描述 符 表 


p= (unsigned long) create_tables ( (char *) p,argc,envc) ; 
current- > brk=ex.a_bss+ 
(current- > end_data=ex.a_data+ 
(current- > end_code=ex.a_text) ) ; 


current- > start_stack=p & Oxfffff000; 


current- > euid=e_uid; 

current- > egid=e_ gid; 
i=ex.a_texttex.a_data; 

while (i&Oxfff) 

put_fs byte (0, (char*) (i++) ) ; 


/设置 进程 代码 段 尾 字段 end_code、 进 程 数 据 段 尾 字段 end_data、 
进程 堆 结尾 字段 bzk、 栈 撒 位 置 字 段 start_stack、 有 效用 户 ID euid 和 有 
效 组 ID egid， 最 后 ， 再 将 主 内 存 中 BSS 段 的 一 页 面 数据 全 部 清 零 


eip[0]=ex.a_entry; /*eip,magic happens: -) */ 
eip[3]=p; /*stack pointer*/ 
return 0; 


ee 


调整 进程 2 的 task_struct 风 情景 如 下 图 4-29~- 
图 4-33 所 示 。 
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图 4-29 调整 executable 字 段 
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图 4-32 调整 代码 段 与 数据 段 段 基 址 
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3. 为 执行 shell 调 整 EIP 和 ESP 


对 sys_execve 软 中 断 压 栈 的 人 进行 设置 ， 用 
shel] 程 序 的 起 始 地 址 值 设置 EFIP， 用 进程 2 新 的 栈 
顶 地 址 信 设 置 ESP。 这 样 ， 软 中 断 iret 返 回 后 ， 进 
程 2 将 从 shell 程 序 开 始 执行 。 代 码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp) 


ee 


eip[0]=ex.a_entry; /设置 进程 2 开始 执行 的 EIP 
eip[3]=p; // 设 置 进程 2 的 栈 顶 指针 ESP 
return 0; 


do_execve () 团 数 执行 完毕 后 ，sys_execve 
便 会 中 断 返 回 ， 去 执行 shell 程 序 。 调 整 EIP 和 ESP 
的 情景 如 图 4-34 所 示 。 
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Al 4-34 调整 EIP 和 ESP 
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4.3.4 ”执行 shell 程 序 


1. 执 行 shell3 引 导 加 载 第 一 页 程序 


shell 程 序 开 始 执 行 后 ， 其 线性 地 址 空间 对 应 
的 程序 内 容 并 未 加 载 ， 也 就 不 存在 相应 的 页 面 ， 
因此 就 会 产生 一 个 “页 异常 "中断 。 此 中 断 会 进 
步调 用 * 缺 页 中 断 ” 处 理 程序 来 分 配 该 页 面 ， 并 加 
载 一 页 shell 程 序 。 执 行 代码 如 下 : 


/代码 路 径 : mm/page.s: 
_page_fault: /页 异 利 处 理 函 数 入 口 
xchgl %eax, (%esp) 

pushl %ecx 

pushl %edx 


push %ds 


push %es 

push %fs 

movl $0x10, %edx 
mov %dx, %ds 
mov %dx, %es 
mov %dx, %fs 
movl %cr2, %edx 
pushl %edx 

pushl %eax 

test] $1, %eax 
jne 1f 


call _do_no_page......//Vél FA dR DU FF WT sh SH EK ZN 


产生 碳 页 中 断 的 情景 如 图 4-35 所 示 。 


do_no_page () 函数 开始 执行 后 ， 先 确定 缺 
页 的 原因 。 假 如 是 由 于 需要 加 载 程序 才 缺 页 ， 会 

党 试 与 其 他 进程 共享 shell (显然 此 前 没有 进程 加 
载 过 shell， 无 法 共享 ， 于 是 申请 一 个 新 的 页 
面 ， 并 调用 bread_ page O 函数 ， 从 虚拟 盘 上 读 
取 4 块 (4 KB、 一 页 ) shell 程 序 内 容 ， 载 入 内 存 页 
面 。 有 具体 执行 代码 如 下 : 
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/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


eee int nr[4]; 

unsigned long tmp; 

unsigned long page; 

int block,i; 

address & =Oxfffff000; 
tmp=address-current- > start_code; 


if (! current->executable||tmp >=current->end_data) {// 如 果 不 是 


加 载 程序 而 是 其 他 原因 导致 缺 页 


get_empty_page (address) ; /比如 说 压 栈 没 地 方 了 ， 那 么 直接 申 
请 页 面 瓯 可 以 了 


return; /然后 直接 返回 
}/ 显 然 ， 此 时 不 是 这 种 情况 ， 确 实 需 要 加 载 程序 


证 (share_page (tmp) ) /尝试 能 不 能 和 其 他 进程 共享 程序 ， 这 样 
就 省 得 加 载 了 ， 显 然 也 不 可 能 (哪个 进程 也 没 加 载 过 shell) 


return; 


if (! (page=get free page () ) ) /为 shell 程 序 申请 一 页 新 的 内 
存 


oom () ; 

/*remember that 1 block is used for header*/ 
block=1+tmp/BLOCK_SIZE; 

for (i=0; i<4; blockt++, i++) 
nr[iJ=bmap (current->executable,block) ; 


bread _page (page,current- > executable->i_dev,nr) ; // 读 取 4 个 逻 
PEER (101) 的 shell 程 序 内 容 进 内 存 页 面 


/在 增加 了 一 页 内 存 后 ， 该 页 内 存 的 部 分 可 能 会 超过 进程 的 
end_data 位 置 


/以 下 是 对 物理 页 面 超出 部 分 进行 处 理 
i=tmp+4096-current- > end_data; 
tmp=page+4096; 

while (i-->0) { 

tmp--; 

* (char *) tmp=0; 

} 


if (put page (page,address) ) 


return; 
free_page (page) ; 
oom () ; 


} 


申请 空 风 页 面 的 情景 如 图 4-36 所 示 。 
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Al 4-36 申请 空间 页 面 


载 入 shell 程 序 的 情景 如 图 4-37 所 示 。 
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图 4-37 和 载 入 shel 程 序 


对 和 载 入 内 容 进 行 检测 的 情景 如 图 4-38 所 示 。 
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Al 4-38 检测 载 入 内 容 
2. 映 射 加 载 页 的 物理 地 址 与 线性 地 址 


载 入 一 页 的 Shell 程 序 后 ， 内 核 会 将 该 页 内 容 
映射 到 shell 进 程 的 线性 地 址 空间 内 ， 建 立 页 目录 
表 一 页 表 一 页 面 的 三 级 映射 管理 关系。 具体 执行 
代码 如 下 : 


// 代 码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


ee 


/代码 路 径 : mm/memory.c: 


unsigned long put_page (unsigned long page,unsigned long address) 
{ 

unsigned long tmp, *page_table; 

/*NOTE! This uses the fact that_pg_dir=0*/ 

if (page <LOW_MEM|lpage > =HIGH_ MEMORY ) 

printk ("Trying to put page%p at%p\n", page,address) ; 

if (mem_map[ (page-LOW_MEM) >> 12]! =1) 

printk ("mem map disagrees with%p at%p\n", page,address) ; 


page table= (unsigned long *) ( (address> >20) &Oxffc) ; // 
计算 address 在 页 目录 表 中 对 应 的 表 项 


if ( (*page_table) &1) // 如 果 该 页 目录 项 已 经 有 对 应 的 页 表 ， 就 
获取 该 页 表 的 地 址 


page _table= (unsigned long *) (Oxfffff000&*page table) ; 
else{// 如 果 还 没有 页 表 ， 束 申请 一 个 页 表 


gg (1 (get freepage O ) ) /这 里 申请 的 页 面 用 来 承载 


return 0; 
*page_table=tmp|7; 


page _table= (unsigned long *) tmp; 


} 


page _table[ (address> >12) &Ox3ff]=page|7; /页 面 和 页 表 建 立 
RAR, WAST BURA 


/*no need for invalidate*/ 
return page; 


} 
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4.4 AGU 
4.4.1 创建 update 进 程 


shell 程 序 开始 执行 后 ， 要 读 取 标 准 输入 设备 
文件 上 的 信息 ， 即 task_struct 中 fp[20] 第 一 项 所 对 
应 文件 的 信息 。 本 章 4.3.1 节 中 已 经 介绍 到 ， 进 程 
2， 即 shell 进 程 刚 开始 执行 ， 怠 用 rc 文件 蔡 换 了 标 
准 输入 设备 文件 ty0， 因 此 ，shell 程 序 执行 后 读 取 
的 是 rc 文件 上 的 信息 。 


读 取 rc 文件 信息 的 情景 如 图 4-40 所 示 。 
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A 440 读 取 rc 文件 信息 


shell 从 "etc/rc" 脚 本 文件 中 读 取 了 一 些 命令 ， 


其 中 主要 包括 以 下 两 条 命令 : 


echo"dewhdl/>/etcmtab/ 将 wdewhdl/ 这 个 字符 串 写 入 /etcmtab 
中 


根据 /etc/update 这 条 命令 ，shell 完 创建 一 个 新 
进程 。 这 个 新 进程 的 进程 号 是 3 (shell 进 程 的 进程 
号 是 2， 依 次 累加 ， 所 以 它 的 进程 号 就 是 3) ° E 
在 task[64] 中 的 “项 号 ”也 是 3。 我 们 在 后 面 称 
为 “update 进 程 *”。 创建 完毕 后 ， 加 载 update 程 序 ， 
并 最 终 将 执行 权 转 交 给 update 进 程 ， 由 它 去 执 
行 。 这 一 创建 、 加 载 、 切 换 的 过 程 ， 与 本 章 4.2 市 
中 进程 1 创建 进程 2、 切 换 到 进程 2 执行 以 及 4.3 市 
加 载 shell 程 序 的 过 程 大 体 一 致 。 


创建 update 进 程 并 载 入 其 部 分 程序 的 情景 如 
图 4-41 所 示 。 
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图 4-41 创建 update 进 程 并 载 入 其 部 分 程序 


updatej 进 程 有 一 项 很 重要 的 任务 : 将 缓冲 区 
中 的 数据 同步 到 外 设 〈 软 到 、 和 硬盘 等 ) 上。 由 于 
主机 与 外 设 的 数据 交换 速度 远 低 于 主机 内 部 的 数 
据 处 理 速度 ， 因 此 ， 当 内 核 需要 往外 设 上 和 写 数 据 
的 时 候 ， 为 了 提高 系统 的 整体 执行 效率 ， 并 不 把 


效 据 和 直接 写 入 外 设 上 ， 而 是 和 匈 写 入 缓 剖 区， 之 
后 ， 根 据 实 际 情况 ， 再 将 效 据 从 缓冲 区 同步 到 外 


设 。 


每 隔 一 段 时 间 ，update 进 程 束 会 补 唤 醒 ， 把 
数据 往外 设 上 同步 一 次 ， 之 后 这 个 进程 会 馈 挂 
起 ， 即 要 设置 为 可 中 断 等 待 状 在， 等待 春 下 一 次 
人 羽 唤 醒 后 继续 执行 ， 如 此 周而复始 。 


update 进 程 执 行 后 ， 并 没有 同步 任务 ， 于 是 
该 进程 被 挂 起 ， 系 统 进行 进程 调度 ， 最 终 切 换 到 
shell 进 程 继续 执行 。 


切换 到 shell 的 情景 如 图 4-42 所 示 。 
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4.4.2 ”切换 到 shell 进 程 执行 


4.4.1 节 中 介绍 到 ，shell 进 程 处 理 了 rc 文件 
中 的 第 一 条 命令 ， 创 建 J 了 update 进程。 现在 处 理 
第 二 条 命令 ， 即 echo"/dev/hd1/" > /etc/mtab， 

将 "dev/hd1" 这 一 字符 串 写 入 虚拟 副 中 /etc/mtab 文 
件 ， 执 行 完 毕 后 ，shell 程 序 会 继续 循环 调用 read 

O 画 数 读 取 rc 文 件 上 的 内 容 。read () 函数 对 应 
的 系统 调用 本 数 是 sys_read。 人 代码 如 下 : 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) 


ee 


if (inode->i_pipe) / 读 取 管道 文件 


return (file->f mode&1) ?read_pipe (inode,buf,count) : -EIO; 
if (S_ISCHR (inode->i mode) ) / 读 取 字 符 设 备 文 件 


return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f_pos) ; 


if (S_ISBLK (inode->i_mode) ) // 读 取 块 设备 文件 
return block read (inode->i zone[0], & file- > f_pos,buf,count) ; 


if (S_ISDIR (inode->i_mode) ||S_ISREG (inode->i mode) ) 
{/ 读 取 普 通 文件 


if (count+file- >f_pos> inode-> i_size) 
count=inode- > i_size-file- > f_pos; 

if (count < =0) 

return 0; 

return file read (inode,file,buf,count) : 
} 


printk (" (Read) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; 


return-EINVAL; 


由 于 "etcirc" 文 件 是 普通 文件 ， 读 取 绪 束 后 ， 
返回 值 应 该 是 -ERROR (文件 读 取 的 具体 操作 步 
又 将 在 文件 操作 一 章 中 详细 介绍 ) 。 这 个 返回 值 
将 导致 shell 进 程 退 出 。 退 出 将 执行 exit O KŠK, 
对 应 的 系统 调用 函数 为 sys_exit， 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 

int sys_exit (int error_code) 

{ 

return do_exit ( (error_code&Oxff) <<8) ; 


} 


进入 do_exit () 函数 后 ， 开 始 为 shell 的 退出 
后 


侈 善后 工作 ， 执 行 代 码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int do_exit (long code) 
{ 
int 1; 


free page tables (get_base (current->lIdt[1]) , get limit 
(OxOf) ) ; /释放 shell 进 程 代码 段 和 数据 段 


free _page_tables (get_base (current->1dt[2]) , get limit 


(0x17) ) ; W 所 占据 的 内 存 页 面 
for (i=0; i<NR_TASKS; i++) // 检 测 shell 进 程 是 否 有 子 进程 
if (task[i]& &task[i]->father==current->pid) { 


ts Mupdatert 并 程 为 其 子 进程 ， 因 此 在 shell 进 程 推 出 前 ， 将 update 
进程 的 父 进 程 


// 设 置 为 进程 1 


task[i]- > father=1; 


if (task[i]->state==TASK_ZOMBIE) /如 果子 进程 为 僵 死 状态 
就 要 向 进程 1 发 送 终止 信号 


/*assumption task[1jis always init*/ 
(void) send sig (SIGCHLD,task[1], 1) ; 
} 


for (i= 05 i<NR_OPEN; i++) /以 下 为 解除 shell 进 程 与 其 他 进 
程 、 文 件 、 终 端 等 的 关系 


if (current-> filp [i]) 

sys close (i) ; 

iput (current->pwd) ; 

current- > pwd=NULL; 

iput (current->root) ; 

current- > root=NULL; 

iput (current-> executable) ; 

current- > executable=NULL; 

if (current->leader& &current- > tty > =0) 
tty _table[current- > tty].pgrp=0; 

if (last_task_used_math==current) 

last _task_used_math=NULL; 

if (current- > leader) 

kill session () ; 

current- > state=TASK_ZOMBIE; /将 当前 进程 设置 为 僵 死 状态 


current- > exit_code=code; 


tell _father (current- > father) ; /给 进程 1 发 信号 ， 通 知 它 shell 进 
程 即 将 推出 


schedule () ; /进程 切换 
return (-1) ; /*just to suppress warnings*/ 


} 


释放 页 面 的 情景 如 图 4-43 所 示 。 
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图 4-43 释放 页 面 


shell 进 程 与 其 他 进程 、 文 件 、 终 曾 .……... 的 关 
系 以 及 给 父 进程 发 送信 号 的 情景 如 图 4-44 所 示 。 


值得 注意 的 是 tell father () 和 schedule () 
函数 的 执行 。 


tell father () 函数 执行 后 ， 会 给 进程 1 发 送 
SIGCHLD 信 号 ， 通 知 进程 1， 有 子 进 程 将 要 退 
出 ， 执 行 代码 如 下 : 
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Al 4-44 给 父 进程 发 送信 和 与 


/代码 路 径 : kernel/exit.c: 


static void tell_father (int pid) /通知 父 进程 ， 将 有 子 进 程 退 出 
{ 

int i; 

if (pid) 


for (i=0; i<NR_TASKS; i++) { 
if (! task[i]) 

continue; 

if (task[i]->pid! =pid) 

continue; 


task[i]->signallj= (1< < (SIGCHLD-1) ) ; /给 父 进 程 发 送 
SIGCHLD 信 和 号 


return; 


/*if we don't find any fathers,we just release ourselves*/ 
/*This is not really OK.Must change it to make father 1*/ 


printk ("BAD BAD-no father found\n\r") ; 


release (current) ; 


} 


tell father () 函数 执行 完毕 后 ， 调 用 


schedule () 函数 准备 进程 切换 。 此 次 schedule 


O 函数 中 对 信和 号 的 检测 ， 影 响 到 了 进程 切换 。 


代码 如 下 : 


程 


/代码 路 径 : kernel/sched.c: 

void schedule (void) 

{ 

int i,next,c; 

struct task_struct ** p; 

/*check alarm,wake up any interruptible tasks that have got a signal*/ 


for (p=&LAST_TASK; p> &FIRST_TASK; --p) /遍历 所 有 进 


if (*p) { 


if ( (*p) ->alam&& (*p) ->alarm<jiffies) { 
(*p) ->signall= (1< < (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( (*p) ->signal&~ (_BLOCKABLE& (*p) -> 
blocked) ) && 


(*p) -> state= =TASK _INTERRUPTIBLE) /发 现 进程 1 接收 到 了 
信号 并 且 处 于 可 中 晰 等 待 状 态 


(*p) ->state=TASK_RUNNING; /将 进程 1 设置 为 就 绪 态 


/*this is the scheduler proper: */ 
while (1) { 

c=-1; 

next=0; 

i=NR_TASKS; 
p=&task[NR_TASKS]; 

while (--i) { 


if (1 *~p) 


Continue; 
if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
c= (*p) ->counter,next=i; /发 现 只 有 进程 1 是 就 绪 态 
} 
if (c) break; 
for (p=&LAST_TASK; p> &FIRST_TASK: --p) 
if (*p) 
(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) -> priority; 
} 
switch _to (next) ; /决定 切换 到 进程 1 去 执行 


} 


本 章 4.2 世 中 介绍 到 ， 进 程 1 是 执行 sys_waitpid 
() 函数 时 ， 调 用 了 schedule () 函数 ， 切 换 到 进 
程 2 的 ， 所 以 ， 切 换 到 进程 1 后 ， 会 继续 执行 


schedule () 函数 ， 并 最 终 回 到 sys_waitpid () & 
数 执行 (具体 过 程 参 看 第 3 章 3.2 信 ) 。 具 体 代码 
如 下 : 


N 


/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int 
options) //wait 对 应 sys_waitpid 系 统 调用 


{ 

int flag,code; 

struct task_struct ** p; 

verify area (stat_addr, 4) ; 

repeat: 

flag=0; 

for (p=&LAST_TASK; p> &FIRST_TASK; --p) { 
if (! *p||*p==current) 

continue; 


if ( (*p) -> father! =current-> pid) 


continue; 


ee ee 


if (flag) { 

if (options& WNOHANG) 

return 0; 

current- > state=TASK_INTERRUPTIBLE; 

schedule () ; /执行 完毕 后 ， 继 续 回 到 sys_waitpid 函 数 中 


if (! (current->signal&=~ (1<< (SIGCHLD-1) ) ) ) // 检 
测 到 SIGCHLD 信 号 ， 确 定 有 子 进 程 要 退出 


goto repeat; /重新 处 理子 进程 退出 问题 


else 


return-EINTR; 


return-ECHILD; 


值得 注意 的 是 ， 此 时 进程 1 接收 到 的 
SIGCHLD 信 号 ， 束 古 前 面 tell_father 发 送 的 信号 。 
sys_waitpid () 画 数 的 主体 程序 继续 执行 ， 技 术 
路 线 在 4.2 广 中 已 经 介绍 。 此 次 执行 的 区 别 在 于 ， 
确实 有 子 进程 退出 ， 需 要 处 理 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options) 


repeat: 

flag=0; 

for (p=&LAST_TASK; p>&FIRST_TASK; --p) { 
if (! *p||*p==current) 

continue; 


if ( (*p) -> father! =current-> pid) 


continue; 


ee ee 


case TASK_ZOMBIE: /1/ 即 将 退出 的 shell 为 伪 死 状态 
current- > cutime+= (*p) -> utime:; 
current->cstimet= (*p) -> stime; 

flag= (*p) ->pid; // 记 录 进 程 2 的 进程 号 ，"2" 
code= (*p) -> exit code: 

release (*p) ; // 释 放 shelltask_struct 所 在 的 页 面 
put fs long (code,stat_addr) ; 


return flag; /退回 Shell 进 程 号 ，"2" 


ee 


ee ee 


释放 shell 的 jtask_struct 所 在 页 面 的 情景 如 图 4- 
45 所 示 。 
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Kl 4-45 释放 shell 的 task_struct 所 在 页 面 


sys_waitpid () 郴 数 执行 完毕 后 ， 会 回 到 wait 
() 函数 ， 最 终 返回 init O 函数 中 ， 进 程 1 继续 
执行 ， 代 码 如 下 : 


/代码 路 径 : init/main.c: 


void init (void) 


if (pid>0) 


while (pid! =wait (&i) ) /此 时 执行 结果 为 2! =2 为 假 ， 跳 出 循 
环 ， 去 下 面 while (1) 中 执行 


/*nothing*/; 

while (1) {// 重 启 shell 进 程 

if ( (pid=fork () ) <0) { 
printf ("Fork failed in init\r\n") ; 
continue; 


} 


if (! pid) { 
close (0) ; close (1) ; close (2) ; 
setsid () ; 
(void) open ("/dev/ttyO", O_RDWR, 0) ; 
(void) dup (0) ; 
(void) dup (0) ; 
_exit (execve ("/bin/sh", argv,envp) Pi 
} 
while (1) 
if (pid==wait (&i) ) 
break; 
printf ("\n\rchild%d died with code%04x\n\r", pid,i) ; 
sync () ; 
} 


_exit (0) ; /*NOTE! exit,not exit () */ 


值得 注意 的 是 ， 本 章 4.2 节 中 已 经 介绍 到 ， 创 
建 完 进 程 2 后 ，pid 值 为 2， 而 sys_waitpid 返 回 值 
flag 也 为 2， 即 wait O EARORIEMEA2, while $ 
件 为 假 ， 跳 出 循环 。 


4.4.3 重建 shell 


P 


环 ， 


进程 1 继续 执行 ， 准 备 重建 shell， 执 行 代 人 码 如 


/代码 路 径 : init/main.c: 


void init (void) 


if (pid>0) 


while (pid! =wait (&i) ) /此 时 执行 结果 为 2! =2 为 假 ， 跳 出 循 
去 下 面 while (1) 中 执行 


/*nothing*/; 
while (1) {/ 重 启 shell 进 程 
if ( (pid=fork () ) <0) {/ 进 程 1 创建 进程 4， 即 重建 shell 进 程 


printf ("Fork failed in init\r\n") ; 


continue; 
} 
if (! pid) { 


close (0) ; close (1) ; close (2) ; // 新 的 shell 进 程 关 闭 所 有 打 
开 的 文件 


setsid () ; // 创 建新 的 会 话 


(void) open ("/dev/tty0", O_RDWR, 0) ; /重新 打开 标准 输入 
设备 文件 


(void) dup (0) ; /重新 打开 标准 输出 设备 文件 

(void) dup (0) ; /重新 打开 标准 错误 输出 设备 文件 
_exit (execve ("/bin/sh", argv,envp) ) ; // 加 载 shell 进 程 
} 

while (1) 

if (pid==wait (Si) ) /进程 1 等 待 子 进程 退出 

break; 

printf ("\n\rchild%d died with code%04x\n\r", pid,i) ; 
sync () ; 


} 


_exit (0) ; /*NOTE! _exit,not exit () */ 


重建 shell 进 程 的 情景 如 图 4-46 所 示 。 
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Al 4-46 重建 shell 进 程 


这 部 分 代码 的 执行 路 线 ， 本 草 前 面 的 内 容 中 
都 已 经 介绍 。 值 得 注意 的 区 别 是 ，shell 进 程 的 进 


程 号 由 last_pid 累 加 产生 ， 因 此 为 4， 但 它 占 用 的 

task[64] 的 项 ， 是 前 面 已 退出 的 shell 进 程 的 项 ， 因 
此 项 号 仍然 是 2。 另 外 ， 此 次 shell 重 新 打开 标准 输 
各 2 ， 而 非 rc 文件 ， 这 使 得 

shell 开 始 执 行 后 ， 不 再 人 退出。 执行 代码 如 下 : 


IAG BEE: fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) 


if (inode->i_pipe) 
return (file->f mode&1) ?read_pipe (inode,buf,count) : -EIO; 


if (S_ISCHR (inode->i_mode) ) /此 次 shell 读 取 的 tty0 文 件 为 字 
符 设 备 文 件 


return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f_pos) ; 


if (S ISBLK (inode->i mode) ) 


return block_read (inode->i_zone[0], &file-> f_pos,buf,count) 


if (S_ISDIR (inode->i_mode) ||S_ISREG (inode->i_mode) ) 
{// 上 次 shell 读 取 的 rc 文件 为 普通 文件 


if (count+file- >f_pos> inode- > i_size) 
count=inode- > i_size-file- > f_pos; 

if (count < =0) 

return 0; 

return file read (inode,file,buf,count) : 
} 


printk (" (Read) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; 


return-EINVAL; 


} 


在 进入 rw_char () 函数 后 ，shell 进 程 将 被 设 
置 为 可 中 上 断 等 待 状态， 这 样 所 有 的 进程 全 部 都 处 


于 可 中 断 等 待 状态， 再 次 切换 到 进程 0 去 执行 ， 系 


AKIRE © 


BIRD, BREA SOR P KRK shellat tite 
供 的 平台 与 计算 机 进行 艾 互 。shell 进 程 处 理 用 户 
指令 的 工作 原理 如 下 : 用 户 通过 键 开 输入 信息 ， 
存储 在 指定 的 字符 缓冲 队列 上 。 该 缓冲 队列 上 的 
内 容 ， 束 古 tty0 文 件 的 内 容 。shell 进 程 会 不 断 读 取 
缓冲 队列 上 的 数据 信息 。 如 采用 户 没 有 下 达 指 
令 ， 缓 冲 队 列 中 吏 不 会 有 效 据 ，shell 进 程 将 会 被 
设置 为 可 中 上 断 等 待 状 在 ， 即 被 挂 起 。 如 采用 户 通 
过 键盘 下 达 指 令 ， 将 产生 键盘 中 断 ， 中 断 服务 程 
序 会 将 字符 信息 存储 在 缓冲 队列 上 ， 并 给 shell 进 
程 发 信号 ， 信 和 号 将 导致 shell 进 程 被 设置 为 瓯 绪 状 
仿 ， 即 被 唤醒 ， 唤 醒 后 的 shell 继 续 从 缓冲 队列 中 


读 取 效 据 信 息 并 处 理 ， 完 秆 后 ，shell 进 程 将 再 次 
WIERE, SER RUBE RE HT UAL 。 


45 “本章 小 结 


本 章 详细 讲解 了 进程 1 创建 进程 2、 加 载 shell 
程序 、 创 建 update 进 程 、 重 建 shell、 实 现 系统 念 速 
的 全 过 程 。 与 前 面 讲解 激活 进程 0、 进 程 0 重建 进 
程 1 有 较 六 不 同 的 地 方 是， 进程 0 和 进程 1 的 代码 都 
定 操 作 系 统 设计 者 直接 写 到 内 核 代 码 中 时 ， 进 程 2 
则 是 从 便 合 中 加 载 的 执行 代码 ， 而 且 shel 进 程 是 
对 操作 系统 非 利 重要 的 用 户 弄 面 进程 。 所 以 ， 本 
章 内 容 涉 及 的 打开 终端 设备 文件 以 及 大 量 的 文件 
操作 ， 为 后 续 学 习 文 件 操 作 打 下 了 基础 。 


第 5 章 ”文件 操作 


本 草 将 通过 几 个 实例 程序 详细 讲解 操作 系统 
的 文件 操作 。 


5.1 KR MIF AR 


3.3.3 F, PRERADE SARITA 
统 ， 便 之 能 够 以 文件 的 形式 与 根 设备 进行 数据 区 
互 。 安 竣 文 件 系统 吏 是 在 根 文件 系统 的 基础 上 ， 
TOME EE PA PPAR SATE IFAS, (ERR 
作 系 统 也 具备 以 文件 的 形式 与 便 弄 进行 数据 交互 


1) 将 硬盘 上 的 超级 块 读 取出 来 ， 并 载 入 系统 
中 的 super_block[8] 中 。 


2) 将 虚拟 盘 上 指定 的 i 节 点 读 出 ， 并 将 此 iT 
点 加 载 到 系统 中 的 inode_table[32] 中 。 


3) 将 便 盘 上 的 超级 块 挂 接 到 inode_table[32] 
中 指定 的 i 太 点 上 。 


人 硬盘 的 文件 系统 安装 成 功 后 ， 整 体 结构 关系 
如 图 5-1 所 示 。 


根 i 节点 mnt 文 件 目录 i 节点 
"||| inode table[32] 
硬盘 的 超级 块 


HNN super block[8] 


wx 


5-1 HMMA RA Nee 


在 shell 下 输入 “mount/dev/hd1/mnt”* 命 令 来 安 


污 文 件 系 统 。 此 命令 包括 三 个 参数 ， 分 别 
是 “mount”、“/dev/hd1” 和 “/mnt”。“mount” 是 这 个 
分 -人 


R 令 有 的 名 字 ， 表 明 这 个 命令 是 要 安 狐 文件 系 


= 


| 


统 ;“/dev/hd1” 和 “/mnt” 是 两 个 路 任 名 。 整 条 他 令 


的 意思 是 : 将 设备 “hd1” 的 文件 系统 挂 载 

在 “mnt” 目 录 文 件 下 。shell 进 程 接 到 该 命令 后 
创建 一 个 新 进程 ， 狐 进程 调用 mount () 函数 ， 
BAER Ellsys mount O 系统 调用 画 数 。 安 效 


A 
Zs 


件 系统 的 工作 就 是 由 sys_mount () KEA ° 


5.1.1 获取 外 设 的 超级 块 


小 贴 士 


便 盘 是 可 以 分 区 的 ， 每 个 分 区 都 可 以 算 作 一 
个 设备 。 本 章 和 以 后 的 草 广 中 ， 上 默认 整个 硬盘 整 
侠 一 个 分 区 ， 因 此 hd1 束 代表 了 人 硬盘 这 个 设备 。 


sys_mount () 芳 数 先 调用 namei () 函数 ， 
根据 /devhd1l 路 径 名 ， 获 得 hd1 设 备 文件 的 FF 点 ， 
FUT Paki Ss, BARES, BERL 
议 备 的 超级 块 。 


执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 

int Sys_mount (char * dev_name,char * dir_name,int rw_flag) 
{ 

struct m_inode * dev_i, *dir_i; 

struct super_block * sb; 


int dev; 


if (! (dev_i=namei (dev_name) ) ) /获取 hd1 设 备 文件 i 节 点 
return-ENOENT; 

dev=dev_i->i_zone[0]; // 通 过 i 太 点 ， 获 取 设 备 号 

if (! S ISBLK (dev i->i mode) ) { 

// 如 果 hd1 文 件 不 是 块 设备 文件 

iput (devi) ; // 束 释放 掉 它 的 i 节点 

return-EPERM; 

} 

iput (devi) ; // 释 放 hd1 设 备 文件 i 市 点 

if (! (dir i=namei (dir name) ) ) 

return-ENOENT; 

if (dir i->i count! =1||dir_i->i_num==ROOT_INO) { 
iput (diri) ; 

return-EBUSY ; 

} 

if (! S_ISDIR (dir i->i mode) ) { 


iput (diri) ; 


return-EPERM; 
} 


rs (! (sb=read_super (dev) ) ) {/ 通 过 设备 号 ， 读 取 设 备 的 超 
级 


iput (diri) ; 
return-EBUSY; 

} 

if (sb->s_imount) { 
iput (diri) ; 
return-EBUSY ; 

} 

if (dir i->i mount) { 
iput (diri) ; 


return-EPERM; 


sb- >s_imount=dir_i; 


dir_i->i_mount=1; 


dir_i->i_dirt=1; /*NOTE! wedon’tiput (diri) */ 
return 0; /*we do that in umount*/ 


} 


其 中 namei O 函数 获取 iT 点 的 过 程 与 4.1.1 
中 介绍 的 iFP 点 获取 过 程 六 体 一 致 。read_super 
O 画 数 读 取 设 备 超 级 块 大 体 分 为 三 步 : 第 一 ， 
在 Super_block 中 选 定 一 个 至 朵 项 来 存储 超级 块 ; 
第 二 ， 将 超级 块 载 入 该 项 ， 第 三 ， 根 据 超级 块 中 
提供 的 信息 ， 载 入 i 市 扩 位 图 和 逻辑 块 位 图 。 
外 ， 在 操作 超级 块 表 项 前 要 将 其 加 锁 ， 以 免 被 其 
他 操作 干扰 ， 等 操作 完毕 后 再 解锁 。 此 过 程 的 执 
行 代码 如 下 : 


/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


{ 

struct super_block * s; 

struct buffer_head * bh; 

int i,block; 

if (! dev) 

return NULL; 

check _disk_ change (dev) ; 


if (s=get_super (dev) ) // 如 果 hd1 设 备 的 超级 块 已 经 载 入 ， 则 直 


接 返 回 
return s; 


for (s=0+super_block; st++) {// 在 super_block 中 为 hd1 超 级 块 寻找 
空闲 位 置 


if (s>=NR_SUPER+super_block) 

return NULL; 

if (! s->s_dev) /确定 super_block 第 二 项 为 空闲 位 置 
break; 


} 
s->s dev=dev; /以 下 的 s-> .. 是 对 该 超级 块 项 中 与 内 存 操 作 相 关 


部 分 进行 设置 


s->s_isup=NULL.; 
s->s_imount=NULL; 
s->s_time=0; 
s->s_rd_only=0; 
s->s_dirt=0; 


age _super (s) ; // 对 该 超级 块 项 加 锁 保护 ， 以 免 设置 过 程 中 被 
Ù 


// 根 据 hd1 设 备 号 和 块 号 (1， 代 表 设 备 上 第 二 块 ， 即 超级 块 所 在 逻 
辑 块 号 ) ， 读 取 超 级 块 


if (!  (bh=bread (dev, 1) ) ) { 
s->s_dev=0; 

free super (s) ; 

return NULL; 

} 


* ( (struct d_super_block *) s) =// 将 读 取 的 超级 块 信息 载 入 超级 
块 项 中 ， 即 第 二 项 中 


* ( (struct d_super_block *) bh->b data) ; 


brelse (bh) ; 


if (s->s_magic! =SUPER_MAGIC) {/ 检 测 超级 块 魔 数 ， 确 定 设 
备 的 文件 系统 是 否 可 用 


s->s_dev=0; 
free super (s) ; 
return NULL; 

} 


/以 下 是 载 入 证 点 位 图 和 超级 块 位 图 ， 并 与 超级 块 中 s_imap 和 
s_zmap 建 立 对 应 关系 


for (i=0; i<ILMAP_SLOTS; i++) 
s->s_imap[iJ=NULL; 

for (i=0; i<Z_MAP_ SLOTS; i++) 
s->s_zmap[iJ=NULL; 

block=2; 

for (i=0; i<s->s_imap_blocks; i++) 
if (s->s_imap[i]=bread (dev,block) ) 
block++; 

else 


break; 


for (i=0; i<s->s_zmap_blocks; i++) 
if (s->s_zmap[i]=bread (dev,block) ) 
block++; 

else 


break; 


/检查 从 设备 上 读 取 的 逻辑 块 数 block 是 否 与 其 应 有 的 数量 2+s- > 
s_imap_blocks+s->s_zmap_blocks 相 一 致 


if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) { 
for (i=0; i<ILMAP SLOTS; i++) 

brelse (s->s_imap[i]) ; 

for (i=0; i<Z_MAP_ SLOTS; i++) 

brelse (s->s_zmapf[i]) ; 

s->s_dev=0; 

free super (s) ; 

return NULL; 

} 


s->s_imap[0]- > b_data[0]|=1; 


s->s_zmap[0]- > b_data[0]|=1; 
free _super (s) ; // 超 级 块 设置 完毕 ， 解 除 对 超级 块 项 的 保护 
return s; 


} 


5.1.2 ”确定 根 文件 系统 的 挂 授 点 


再 次 调用 namei O 函数 ， 根 据 /mnt 路 径 名 ， 
获得 mnt 目 孙 文件 的 i 六 点 ， 获 取 后 ， 分 析 iP REY 
属性 ， 判 断 该 iF 点 是 个 可 以 用 来 挂 接 文 件 系统 ， 
执行 代码 如 下 : 


/代码 路 径 : fs/super.c: 

int sys_mount (char * dev_name,char * dir_name,int rw_flag) 

{ 

struct m_inode * dev_i, *dir_i; 

struct super_block * sb; 

int dev; 

if (! (dev i=namei (dev_name) ) ) /获取 hd1 设 备 文件 i 节 点 
return-ENOENT; 


dev=dev_i->i_zone[0]; /通过 i 节 点， 获取 设备 号 


if (! S_ISBLK (dev_i->i_mode) ) {// 如 果 hd1 文 件 不 是 块 设备 
文件 


iput (devi) ; /就 释放 掉 它 的 证 点 

return-EPERM; 

} 

iput (devi) ; // 释 放 hd1 设 备 文件 i 市 点 

if (! (dir j=namei (dir name) ) ) /获取 mnt 目 录 文 件 i 节 点 
return-ENOENT; 
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if (dir i->i count! =1||dir_i->i_num==ROOT_INO) { 

iput (diri) ; 

return-EBUSY ; 

} 

if (! S_ISDIR (dir_i->i_mode) ) {// 确 定 mnt 确 实 是 目录 文件 
iput (diri) ; 

return-EPERM; 


} 


if (! (sb=read_super (dev) ) ) {/ 通 过 设备 号 ， 获 取 设 备 的 超 
级 块 


iput (diri) ; 
return-EBUSY; 

} 

if (sb->s_imount) { 
iput (diri) ; 
return-EBUSY; 

} 

if (dir i->i mount) { 
iput (diri) ; 


return-EPERM; 


sb- >s_imount=dir_i; 
dir_i->i_mount=1; 
dir_i->i_dirt=1; /*NOTE! wedon’tiput (dir i) */ 


return 0; /*we do that in umount*/ 


经 分 析 确 定 ，mnt 具 备 挂 接 文件 系统 的 条 件 。 


5.1.3 ”将 超级 块 与 根 文件 系统 挂 接 


FE fc HU MARTE Pa A OER AB EP 
兆 ” 的 ， 即 hd1 设 备 的 文件 系统 没有 被 安 儿 过 ， 而 
晶 mnt 目 对 文件 上 也 没有 安 猴 过 其 他 文件 系统 。 这 
两 点 确定 后 ， 殊 将 两 省 挂 授 ， 执 行 代码 如 下 : 


// 代 码 路 径 : fs/super.c: 


int sys_mount (char * dev_name,char * dir name,int rw_flag) 


ee 


if (! (sb=read_super (dev) ) ) {/ 通 过 设备 号 ， 获 取 设 备 的 超 
级 块 


iput (diri) ; 
return-EBUSY; 


} 


(sb->s_imount) {// 确 保 hd1 设 备 的 文件 系统 没有 被 安装 在 其 他 
} 


iput (diri) ; 
return-EBUSY; 
} 


if (dir_i->i_mount) {// 确 保 mnt 目 录 文 件 i 节 点 上 没有 安装 过 其 他 
文件 系统 


iput (diri) ; 
return-EPERM; 
} 


sb->s_imount=dir_i; /将 超级 块 中 s_imount 与 根 文件 系统 中 dir i 
挂 接 


dir_i->i_mount=1; /给 dir_ i 做 标记 ， 表 明 该 i 市 点 上 已 经 挂 接 了 
文件 系统 


dir_i->i_dirt=1; // 给 dir_ i 做 标记 ， 表 明 i 节 点 上 的 信息 已 经 被 更 改 
/*NOTE! we dont iput (dir i) */ 
return 0; /*we do that in umount*/ 


} 


本 草 第 2 至 8T ， 将 通过 3 个 文件 操作 实例 ， 讲 
解 文 件 系统 的 工作 原理 。 


实例 1: 用 户 进 程 打开 一 个 硬盘 上 已 存在 的 文 
件 ， 并 该 取 文件 的 内 容 。 


实例 2: 用 户 进程 在 硬 副 上 新 建 一 个 文件 ， 并 
将 内 容 写 入 这 个 文件 。 


实例 3: 天 财 此 文件 ， 并 将 其 从 硬 玛 中 删除 。 


实例 1: 用 户 进 程 打开 一 个 在 便 副 上 已 存在 的 
文件 ， 并 读 取 文件 的 内 容 。 


本 实例 分 为 两 部 分 : 打开 文件 和 谈 取 文件 ， 
进程 的 代码 如 下 : 


void main () 


{ 
/打开 文件 
char buffer[ 12000]; 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


/ 读 取 文件 
int size=read (fd,buffer,sizeof (buffer) ) ; 
return; 


} 


5.2 ”打开 文件 


打开 文件 是 拟人 化 的 表述 ， 在 操作 系统 中 束 
侠 硝 定 进 程 操作 哪个 文件 。 这 个 确定 过 程 由 两 件 
事 构 成 : 


1) 将 用 户 进程 task_struct 中 的 *filp[20] 与 内 核 
中 的 季 e_table[64] 进 行 挂 授 。 


2) 将 用 户 进程 需要 打开 的 文件 对 应 的 i 节点 
在 file_table[64] 中 进行 登记 ° 


操作 系统 根据 用 户 进程 的 需求 来 操作 文件 ， 
内 核 通过 *filp[20] 苔 控 一 个 进程 可 以 打开 的 文件 ， 
既 可 以 打开 多 个 不 同 的 文件 ， 也 可 以 同一 个 文件 
多 次 打开 ， 每 打开 一 次 文件 〈 不 论 是否 是 同一 个 


文件 ) ， 就 要 在 *filp[20] 中 占用 一 个 项 (比如 
hello.txt 文 件 被 一 个 用 户 进 程 打 开 两 次 ， 束 要 在 
*filjp[20] 中 占用 两 项 ) 记录 指针 ， 所 以 ， 一 个 进程 
可 以 同时 打开 的 文件 次 数 不 能 超过 20 次 。 


操作 系统 中 fle_table[64] 征 管理 所 有 进程 打开 
文件 的 数据 结构 ， 不 但 记录 了 不 同 的 进程 打开 不 
同 的 文件 ， 也 记录 了 不 同 的 进程 打开 同一 个 文 
件 ， 甚 至 记录 了 同一 个 进程 多 次 打开 同一 个 文 
件 。 与 *filjp[20] 类 似 ， 只 要 打开 一 次 文件 ， 束 要 在 
file_table[64] 中 记录 。 


文件 的 节点 是 记载 文件 属性 的 最 关键 的 数据 
结构 。 在 操作 系统 中 i 节点 和 文件 是 一 一 对 应 的 ， 
找到 i 节点 就 能 唯一 确定 文件 。 内 核 通过 


inode_table[32] 掌 控 正 在 使 用 的 文件 i 市 点数， 
个 个 使 用 的 文件 i 市 点 者 要 记录 在 其 中 。 


打开 文件 的 本 质 就 是 要 建 六 *filp[20]、 
file table[64]、inode table[32] 三 者 之 间 的 关系 ， 
如 图 5-2 所 示 。 


这 个 过 程 分 为 三 个 步 又 进行 : 


第 一 步 ， 将 用 户 进 程 task_struct 中 的 *filp[20] 
与 内 核 中 的 file_table[64] 进 行 挂 接 。 


第 二 步 ， 以 用 户 给 定 的 路 径 
4% “/mnt/user/userl1/user2/hello.txt” HRZ, FREI 
hello.txtQCfFAYiT A, ° 


第 三 步 ， 将 hello.txt 对 应 的 i 节点 在 
file_table[64] 中 进行 登记 。 


Re 


具体 的 操作 是 在 进程 中 调用 open O 函数 实 
现 打 开 文 件 ， 该 贸 数 最 终 映射 到 sys_open () 系 
统 调 用 函数 执行 。 有 映射 过 程 以 及 sys_open () 
数 的 基本 执行 情况 已 经 在 本 书 4.4.1 广 中 介绍 。 本 
万 在 此 基础 上 ， 详 细 讲 解 sys_open O KAJEN 
行 细 节 并 分 析 sys_open () 的 设计 思路 。 


0 
QO X 


file_table[64] 


filp[20] filp[20] filp[20] filp[20] 


图 5-2 打开 文件 的 天 系 示 苇 图 


5.2.1 “将 进程 的 *filp[20] 与 划 e_table[64] 挂 


fe 


fEsys_open () 函数 中 ， 实 现 *filp[20] 与 
file_table[64] 进 行 挂 接任 务 的 代码 如 下 : </p> 


/代码 路 径 : include/linux/fs.h: 

#define NR_OPEN 20// 进 程 可 以 打开 文件 的 最 大 数 
#define NR_FILE 64// 操 作 系 统 可 以 打开 文件 的 最 大 数 
struct file{ 

unsigned short f_mode; /文件 操作 模式 

unsigned short f_flags; /文件 打开 、 控 制 标志 
unsigned short f_count; /文件 句柄 数 

struct m_inode * f_inode; V/ 指 同文 件 对 应 的 证 点 


off tf_pos; /文件 位 置 ( 读 写 偏 移 值 ) 


}; 

/代码 路 径 : include/linux/sched.h: 

struct file * filp[NR_OPEN]; /管理 进程 使 用 文件 的 指针 数组 
/代码 路 径 : fs/fle_table.c: 


struct file file_table[NR_FILE]; /记录 操作 系统 已 经 打开 文件 的 管 


控 信 息 
/代码 路 径 : fs/open.c: 
int Sys_open (const char * filename,int flag, int mode) 
{ 
struct m_inode * inode; 
struct file * f; 
int i,fd; 


mode &=0777 &~current- > umask; /设置 该 文件 模式 为 用 户 许 可 
使 用 模式 〈 将 在 5.4 新 建文 件 一 节 中 讲解 ) 


for (fd=0; fd<NR_OPEN; fd++) /从 当前 进程 *filp[20] 中 寻找 空 
内 项 


if (! current-> filp[fd]) 
break; 


if (fd>=NR_OPEN) /检查 *filp[20] 结 构 是 否 已 经 超出 使 用 极限 


return-EINVAL; 


current- > close_on_exec&=~ (1<<fd) ; /将 该 文件 句柄 执行 时 
关闭 标志 设置 为 0 〈 将 在 第 6 章 中 讲解 ) 


f=0+file_table; 


for (i=0; i<NR FILE; i++, f++) /在 file_ table[64] 中 寻找 空闲 
项 


if (! f->f count) break; 


if ((>=NR_FILE) /检查 file_ table[64] 结 构 是 否 已 经 超出 使 用 极限 
(极限 为 承载 64 个 文件 表 项 ) 


return-EINVAL; 


(current-> filp[fd]J=f) ->f_count++; /将 当前 进程 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


ee 


要 想 实 现 挂 接 人 任务， 就 要 分 别 在 *filp[20]、 
file_table[64] 中 找到 空 内 项 ， 找 到 后 ， 将 当前 进程 
的 *filp[20] 与 fe_table[64] 的 对 应 项 挂 接 ， 并 增加 


file_table[64] 中 对 应 项 的 文件 句柄 计数 〈 文 件 句柄 


将 在 第 7 革 讲 解 ) 。 


另外 需要 注意 的 是 ， 多 个 进程 对 文件 的 使 用 
情况 是 蚀 综 复 洒 的 ， 无 法 事先 预计 ， 在 找寻 
* 人 filp[20]、file_table[64] 的 空 内 项 时 不 一 定 都 能 找 
得 到 ， 也 就 是 说 ， 超 出 了 两 个 数据 结构 的 使 用 极 
限 ， 遇 到 这 类 情况 内 核 会 给 出 错误 信息 。 在 文件 
系统 中 移 检 查 、 后 使 用 的 设计 风格 是 贯穿 始终 
的 。 


5.2.2 FRAO A 


ZANT ED AT EB 
, “/mnt/user/userl1/user2/hello.txt”, + #l|hello.txt3< 
件 的 i 节点 。 


此 次 与 本 书 4.1.1 市 中 所 介绍 的 查找 文 件 i 契 扩 
的 区 别 在 于 ，hello.txt 文 件 存储 于 硬盘 上 ， 碍 找 过 
程 将 会 从 根 i 末 点 开始 ， 通 过 虚拟 盘 找 到 硬盘 上 的 
文件 。 查 找 的 技术 路 线 如 图 5-3 所 示 。 


从 图 5-3 中 可 以 看 出 ， 路 径 名 的 解析 过 程 有 了 明 
显 的 同 构 性 ， 技 术 路 线 走 : 


TRITA ET RRI HRA -> 


通过 目 孙 文件 找到 目 永 项 ~ 通过 目 永 项 找到 
目 孙 文件 im R > 


通过 目 孙 文件 找到 目 永 项 ~ 通过 目 永 项 找到 
ERLT AF > 


5-3 ”文件 路 径 解析 示意 
1. 获 取 目 好 文件 i 节点 


获取 iT 点 的 程序 调用 图 如 图 5-4 所 示 。 


open_maneiph WPT, 最 终 
获取 hello.txt 目 标 文件 i 节点 


出 r_namei 网 数 执 行 , 不 断 


de 调用 find_entry 秃 数 , 根据 校 梢 区 点 
Bre ee 目录 名 信息 , 获取 目录 文件 中 的 目录 项 


hello. txt 


CHARI AJ 


= 调用 get 函数 , 根据 目录 项 中 
Sara 提供 的 i 节 点 号 和 枝 梢 ;节点 中 
提供 的 设备 号 获取 目标 文件 i 节点 


调用 find_entry 函 数 , 根据 
目录 文件 i 节点 和 目录 名 信息 ， 
获取 目录 文件 中 的 目录 项 


调用 iget 函 数 , 根据 目录 项 中 
提供 的 i 节点 号 和 i 节点 中 提供 的 
设备 号 , 获取 目录 文件 1 节点 


图 5-4 获取 i 太后 的 程序 调用 


JR H RKT xe 1H Va] H open_namei 
O 函数 实现 的 。 代 码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


if ( (i=open_namei (filename, flag,mode, Szinode) ) <0) {/ 获 取 
hello.txt 文 件 i 玉 点 


current->filp[fdj=NULL; /如 果 没 有 获取 到 iT 点 ， 将 *filp[20] 申 请 
到 的 表 项 置 为 NULL 


f->f_count=0; // 如 果 没 有 获取 到 i 广 点 ， 将 file_table[64] 申 请 到 的 
表 项 引用 计数 置 0 


return i; 


进入 open_namei () KUR, EIAHA 
的 文件 按照 用 户 需 求 设置 参数 flag、mode ° 


执行 代码 如 下 : 


/代码 路 径 : include/fentl.h: /八进制 形式 : 

#define O_ACCMODE 00003// 文 件 访问 模式 屏蔽 码 
#defne O_RDONLY 00/ 只 读 方 式 打开 文件 标志 
#defne O_WRONLY 01// 只 写 方式 打开 文件 标志 
#defne O_RDWR 02// 读 写 方式 打开 文件 标志 

#define O_CREAT 00100/*not fcntl*/// 创 建新 文件 标志 


#define O EXCL 00200/*not fcntl*/// 进 程 独 占 文件 标志 


#define O_NOCTTY 00400/*not fcntl*/// 不 分 配 控 制 终端 标志 
#define O_TRUNC 01000/*not fcntl*/// 文 件 长 度 截 0 标志 
#define O_APPEND 02000// 文 件 指 针 置 末端 标志 


#define O_NONBLOCK 04000/*not fcntl*// 非 阻塞 方式 打开 和 操作 
文件 标志 


#define O_NDELAY O_NONBLOCK 


/代码 路 径 : include/fentlh: /二 进 制 形式 : (可 以 看 出 标志 的 设 
置 有 明显 的 规律 ) 


#define O_ACCMODE 0000 0000 0000 0011 

#defne O_RDONLY 0000 0000 0000 0000 

#defne O_WRONLY 0000 0000 0000 0001 

#defne O_RDWR 0000 0000 0000 0010 

#define O_CREAT 0000 0000 0100 0000/*not fcntl*/ 
#define O_EXCL 0000 0000 1000 0000/*not fentl*/ 
#define O_NOCTTY 0000 0001 0000 0000/*not fentl*/ 
#define O_TRUNC 0000 0010 0000 0000/*not fcntl*/ 
#define O_APPEND 0000 0100 0000 0000 

#define O_NONBLOCK 0000 1000 0000 0000/*not fcntl*/ 
#define O_NDELAY O_NONBLOCK 


/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname, int fag,int mode, 


struct m_inode ** res_inode) /pathname 就 是 路 
4s/mnt/user/user1/user2/hello.txtH fs Et 


{ 


const char * basename; //basename 记 录 目 录 项 名 字 前 面 /' 的 地 址 
int inr,dev,namelen; //namelen 记 录 名 字 的 长 度 
struct m_inode * dir, *inode; 


struct buffer_head * bh; 


struct dir_entry * de; //de 用 来 指向 目录 项 内 容 


if ( (flag&O_TRUNC) &&! (flag&O ACCMODE) ) /如 果 
文件 为 只 读 文 件 且 长 度 为 0 


flagl|=O_WRONLY; /将 文件 设置 为 只 写 文件 
mode &=0777& ~current- > umask; 
mode|=I_REGULAR; /设置 该 文件 为 普通 文件 


if (! (dir=dir namei (pathname, &namelen, & 


basename) ) ) // 分 析 路 径 、 获 取 枝 梢 i 节点 
return-ENOENT; 
if (! namelen) {/*special case: '/usr/'etc*/ 


if (! (flag& (O_ACCMODE|O_CREAT|O_TRUNC) ) ) { 


*res inode=dir; 
return 0; 


} 
iput (dir) ; 
return-EISDIR; 


} 


bh=find_entry (S&dir,basename,namelen, &de) ; // 通 过 枝 梢 i 节 
点 ， 找 到 目标 文件 的 目录 项 


设置 完毕 ， 调 用 dir namei () 函数 分 析 用 户 
给 出 的 文件 路 径 名 ， 遇 有 历 路 径 所 有 目 孙 文件 i 
点 ， 目 的 是 获取 最 后 一 个 目录 文件 i 让 点 OST 
A) 。 


进入 dir_namei () 画 数 后 ， 调 用 获取 im 点 的 
具体 工作 函数 一 get_dir O K o EEA F: 


/代码 路 径 : fs/namei.c: 
static struct m_inode * dir_namei (const char * pathname, 


int * namelen,const char ** name) /pathname 就 是 路 
4#/mnt/user/user1/user2/hello.txth tg Et 


char c; 
const char * basename; 


struct m_inode * dir; 


if (! (dir=get_dir (pathname) ) ) // 分 析 路 径 、 获 取 i 节 点 的 执行 


return NULL; 
basename=pathname; 


while (c=get_fs_byte (pathnamet++) ) /遍历 结束 后 ，pathname 会 
fia TH SE FF BB RYA 


// 逐 个 遍历 mntusevuserluser2/hello.txt" 字 符 串 ， 每 次 循环 都 将 一 
个 字符 复制 给 c 


if (c=) 


basename=pathname; // 字 符 串 所 历 结束 后 ，basename 将 指 癌 最 后 一 
UNI 1 
广 / 


*namelen=pathname-basename-1; /计算 出 "hello.txt" 名 字 的 长 度 
*name=basename; /得 到 hello.txt 前 面 " 字 符 的 地 址 
return dir; 


} 


get_dir () 函数 获取 证 点 的 内 容 ， 在 本 书 
4.1.1 廊 中 初步 介绍 过 ， 获 取 工 作 古 通过 持续 不 断 
地 “确定 目 了 永 项 、 通 过 目 永 项 获取 iT 点 ?完成 的 。 


“确定 目录 项 ?对 应 的 函数 是 find_entry () ; 


iH ARR BT 点 ?对 应 的 函数 是 iget 


这 里 详细 介绍 这 两 个 负数 的 执行 过 程 。 代 码 


/代码 路 径 : fs/namei.c: 

static struct m_inode * get_dir (const char * pathname) 
{ 

char c; 

const char * thisname; 

struct m_inode * inode; 

struct buffer_head * bh; 

int namelen,inr,idev; 

struct dir_entry * de; 


if (! current->root||! current->root->i_count) /当前 进程 的 根 i 节 
点 不 存在 或 引用 计数 为 0 


panic ("No root inode") ; 


if (! current->pwd]|! current->pwd->i_count) /当前 进程 的 当前 
工作 目录 根 i 广 点 不 存在 或 引用 计数 为 0 


panic ("No cwd inode") ; 


/此 处 识别 出 "mntusevuserl/user2hello.txt" 这 个 路 径 的 第 一 个 字符 
Hai 
玉 '/ 


if ( (c=get fs byte (pathname) ) =='') { 
inode=current- > root; 

pathname++; 

}else if (c) 

inode=current- > pwd; 

else 

return NULL; /*empty name is bad*/ 
inode->i_count++; // 该 i 节点 的 引用 计数 也 随 之 加 1 
while (1) {/ 循 环 以 下 过 程 ， 直 到 找到 枝 梢 i 节 点 为 止 
thisname=pathname; //thisname 会 站 完 指 同 'm' 


if (! S_ISDIR (inode->i mode) ||! permission 
(inode,MAY_ EXEC) ) { 


iput (inode) ; 
return NULL; 


} 


/每 当 检 索 到 字符 串 中 的 /字符 ， 或 者 c 为 \0'， 循 环 都 会 跳出 


for (namelen=0; (c=get fs byte (pathname++) ) && (c! 
=") ; namelen++) 


/*nothing*/; /注意 这 个 分 号 
if (! ¢) 
return inode; 


if (! (bh=fnd_entry (&inode,thisnameynamelen, &de) ) ) {// 通 
过 目录 文件 的 i 市 点 和 目录 项 信息 ， 获 取 目 杂项 


iput (inode) ; // 如 果 在 目录 文件 中 没有 找到 指定 的 目录 项 ， 束 释 
BOK H RX IIIT A 


return NULL; /并 返回 NULL 

} 

inr=de-> inode; /MEB RMF HERIT RS 
idev=inode->i_dev; // 从 i 节点 中 获取 设备 号 
brelse (bh) ; 


iput (inode) ; /PMEPBURIT AZ HIMES T ARCH, (EA 
EEE Jar AL BURR LA S78 Be inode_table™F H') 23 [A] 


if (! (inode=iget (idev,inr) ) ) // 获 取 i 节 点 
return NULL; 


} 


find_entry () 函数 的 任务 是 : WEH RKA 
件 im 氮 ， 确 定 目 永 文件 中 有 多 少 目 永 项 ， 之 后 从 
目 邓 文件 对 应 的 第 一 个 逻辑 块 开始 ， 不 断 将 该 文 
件 的 逻辑 块 从 外 设 读 入 缓冲 区 ， 并 从 中 查找 指定 
目 永 项 ， 和 直到 找到 指定 的 目录 项 为 止 。 


代码 如 下 : 


/代码 路 径 : include/linux/fs.h: 

#define BLOCK_SIZE 1024 

/代码 路 径 : fs/namei.c: 

static struct buffer_head * find_entry (struct m_inode ** dir, 
const char * name,int namelen,struct dir_entry ** res_dir) 
/获取 mnt 目 录 项 


{ 


int entries ; 

int block,i; 

struct buffer_head * bh; 
struct dir_entry * de; 
struct super_block * sb; 
#ifdef NO_TRUNCATE 


if (namelen> NAME LEN) // 在 定义 了 “NO_TRUNCATE， 即 不 能 
规 断 ”的 前 担 下 ， 如 果 文 件 名 超过 14 字 节 ， 就 返回 NULL 


return NULL; 

#else 

if (namelen>NAME_LEN) /否则 就 强行 截断 
namelen=NAME LEN; 

#endif 


entries= (*dir) ->i size/ (sizeof (struct dir_entry) ) ; 


. // 根 据 i 节 点 中 i_size 文 件 长 度 信息 ， 计 算 目 录 文件 中 有 多 少 个 目录 
项 


*res dir=NULL; 


if (! namelen) /检查 文件 名 长 度 是 否 为 0 


return NULL; 
/*check for'..', as we might have to do some"magic"for it*/ 


if (namelen==2& &get_fs byte (name) ==".'& &get_fs_byte 
(name+1) =="') { 


ee /如 采 目 孙 项 是 ..， 在 这 里 处 理 


if (! (block= (*dir) ->i zone[0]) ) /确定 目录 文件 第 一 个 逻辑 
块 的 块 号 不 能 是 0 


return NULL; 


if (! (bh=bread ( (*dir) ->i dev,block) ) ) // 将 目录 项 所 在 逻 
辑 块 读 入 指定 缓冲 块 


return NULL; 
i=0; 


de= (struct dir_entry *) bh->b_data; // 让 de 指向 缓冲 块 首 地 址 


while (i<entries) {/ 在 所 有 目录 项 中 查找 mnt 目 录 项 


if ( (char*) de>=BLOCK_SIZE+bh->b data) { 


// 如 果 一 个 缓冲 块 全 部 搜索 完 ， 还 是 没有 找到 指定 的 目录 项 
brelse (bh) ; 


bh=NULL; 


// 束 将 目录 文件 的 下 一 个 逻辑 块 载 入 缓冲 块 ， 继 续 找 mnt 目 杂项 
if (! (block=bmap (*diri/DIR_ENTRIES PER BLOCK) ) || 
! (bh=bread ( (*dir) ->i dev,block) ) ) { 
i+=DIR_ENTRIES PER BLOCK; 

continue; 

} 

de= (struct dir_entry *) bh->b_data; 

} 

if (match (namelen,name,de) ) {// 目 录 项 匹配 确认 
*res_dir=de; // 如 果 找 到 了 mnt， 就 交 给 *res_dir 措 针 


return bh: 


brelse (bh) : 


retum NULL; // 整 个 日 隶 文件 全 都 检测 完了 ， 确 实 没 有 mnt 目 邓 
项 ， 返 回 NULL 


iget () 函数 的 任务 是 : 根据 目录 项 中 提供 的 i 
广 扩 号 、 设 备 号 获取 i 上 扣 。 具 体 的 葡 取 方式 是 : 
先 在 inode_table[32] 中 搜索 ， 如 来 指定 的 i 入 所 已 在 
其 中 ， 束 直接 使 用 ， 如 采 找 不 到 ， 再 加 载 。 这 样 
做 的 理由 十: 一 个 文件 只 能 有 一 个 im 点 ， 同 一 个 
文件 又 可 能 家 多 个 进程 同时 引用 ， 现 在 需要 获取 
的 文件 iP AVA FT Be ZA A, WREE 
BRITE, MES Seal, MAR AY 
间 。 


此 外 ， 如 采 发 现 某 文件 im 点 上 安立 了 文件 系 
统 ， 吏 直接 把 该 文件 系统 的 根 广 点 载 入 ， 这 个 根 ; 
广 扩 将 成 为 在 为 一 个 文件 系统 中 继续 查找 文件 的 
HE ° 


mnt 目 录 文 件 的 证 点 是 第 一 个 要 获取 的 iT 
点 ， 通 过 5.1 节 的 介绍 得 知 ，mnt 目 隶 文件 节点 上 
安 锋 了 文件 系统 ， 这 就 需要 把 该 文件 系统 的 根 i 字 
点 载 入 证 点 表 。 


执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


struct m_inode * iget (int dev,int nr) // 获 取 mnt 目 录 文 件 的 i 节点 ， 
dev 和 nr 分 别 为 指定 i 节点 的 设备 号 和 i 广 点 号 


{ 

struct m_inode * inode, *empty; 
if (! dev) // 如 果 设备 号 为 空 
panic ("iget with dev==0") ; 


empty=get_empty_inode () ; // 从 inode_table[32] 中 ， 获 取 空 闻 的 i 
TARI 


inode=inode_table; 


// 从 inode_table[32] 中 ， 检 测 指 定 的 i 市 点 是 否 已 经 加 载 过 了 ， 本 生 
例 mnt 目 录 文 件 i 广 点 束 加 载 过 


while (inode < NR_INODE+inode table) { 


IERES ATS ee A ET 

if (inode->i_dev! =devllinode->i num! =nr) { 

inode++; 

continue; 

} 

// 即 便 找到 了 ，mnt 目 录 文 件 i 节点 此 时 有 可 能 正在 被 使 用 ， 所 以 要 


等 行 其 解锁 
wait on inode (inode) ; 


if (inode->i_dev! =devjlinode->i_num! =nr) {// 此 时 该 i 节点 有 可 
能 已 经 


inode=inode_table; /被 释放 了 ， 因 此 要 重新 遇 历 inode_table[32] 
如 未 被 删除 


continue; /就 可 以 用 了 ， 此 时 的 情况 是 mnt 没 有 被 删除 
} 
inode- > i_count++; 


if (inode->i_mount) {// 如 果 该 节点 上 安装 了 文件 系统 (本 案例 中 
mnt 目 录 文 件 i 节 点 就 是 这 种 情况 ) 


int i; 


for (i=0; i<NR_SUPER; i++) /寻找 安装 的 文件 系统 所 在 外 设 
(硬盘 ) ， 即 hd1 设 备 的 超级 块 


if (super_block[i].s_imount==inode) 


break; 


if ((>=NR_SUPER) {/i 节 点 上 并 没有 安装 文件 系统 
printk ("Mounted inode hasn't got sb\n") ; 

if (empty) 

iput (empty) ; 

return inode; 

} 

iput (inode) ; 

dev=super_block[i].s_dev; /通过 hd1 设 备 超级 块 得 到 设备 号 
nr=ROOT_INO; // 确 定 外 设 根 i 太后 号 ，ROOT_INO 为 1 


inode=inode_table; // 准 备 再 次 遍历 外 设 (硬盘) 根 i 节点 ， 以 确定 
其 是 否 也 已 经 加 载 


continue; 


if (empty) 


iput (empty) ; 

return inode; 

} 

if (! empty) //inode_table[32] FY 23 AI T 
return (NULL) ; 


1/ 寻找 hd1l 设 备 根 i 广 操 的 结 末 是 ， 没有 找到 ， 所 以 准备 加 载 该 三 点 


inode=empty; 

inode- > i_dev=dev; 

inode- > i_num=nr; 

read _inode (inode) ; // 读 取 i 节 点 


return inode; /由 于 mnt 的 i 节 点 安装 了 文件 系统 ， 此 次 获取 的 是 hdl 
ART 


} 


准备 工作 完成 后 ， 通 过 调用 read_inode 画 数 ， 
从 外 设 (此 时 是 硬盘 ) 上 读 取 i 节点 ， 载 入 
inode table[32] 中 。 


执行 代码 如 下 : 


/代码 路 径 : fs/inode.c: 

static void read_inode (struct m_inode * inode) // 读 取 i 节 点 
{ 

struct super_block * sb; 

struct buffer_head * bh; 

int block; 


lock _inode (inode) ; /为 inode_table[32] 中 指定 i 节 点 表 项 加 锁 ， 
以 免 被 干扰 


if (! (sb=get_super (inode->i_dev) ) ) /获取 ji 节点 所 在 设备 的 
超级 块 (已 经 加 载 ) 


panic ("trying to read inode without dev") ; 
block=2+sb- > s_imap_blocks+sb- > s_zmap_blocks+ 


(inode->i num-1) /INODES PER BLOCK; /确定 i 节 点 在 设备 
上 的 逻辑 块 号 


if al (bh=bread (inode->i_dev,block) ) ) // 将 i 节点 所 在 逻辑 块 
载 入 指定 缓冲 块 


panic ("unable to read i-node block") ; 


* (struct d_inode *) inode=// 将 i 节点 载 入 inode_table[32] 表 的 指定 位 


( (struct d_inode *) bh->b data) 
[ (inode->i_num-1) %INODES_PER_BLOCK]; 
brelse (bh) ; 
unlock inode (inode) ; / 表 项 操作 完毕 ， 解 锁 


} 


获取 到 硬盘 上 文件 系统 的 根 i 太 点 后 ，get_dir 
O 函数 将 不 断 地 调用 find_entry () PRAY ` iget 
O REN, FRSC NTR A luser ` useri H RLH 
HITA, Fí user HRAT ( 枝 梢 
i 节点 ) ° HIERS Smt BR MFT 点 一 
MN; Kale, AE H RUFT AERA RRM 
(FAS, BITKAMA] ° 


代码 如 下 : 


/代码 路 径 : fs/namei.c: 


struct m_inode * iget (int dev,int nr) // 获 取 后 续 目 录 文 件 的 i 节点 ， 
dev 和 mr 分 别 为 指定 ji 节点 的 设备 号 和 iT 点 号 


{ 

struct m_inode * inode, *empty; 

if (! dev) /如 果 设 备 号 为 空 ， 死 机 
panic ("iget with dev==0") ; 


empty=get_empty_inode () ; /从 inode_table[32] 中 ， 获 取 空 闲 的 i 
TARI 


inode=inode_table; 
while (inode < NR_INODE+inode table) { 


/从 inode table[32] 中 ， 检 测 指定 的 i 点 是 否 已 经 加 载 过 了 ， 其 他 
E RT 点 从 未 加 载 过 


if (inode->i_dev! =devllinode->i num! =nr) { 
// 对 比 的 最 终结 果 是 循环 跳出 
inode++; 


continue; 


if (! empty) 


return (NULL) ; 


Joes BRM Re: 没有 找到 ， 所 以 准备 加 载 该 


inode=empty; 

inode- > i_dev=dev; 

inode- > i_num=nr; 

read _inode (inode) ; V/ 读 取 i 节 点 


return inode; /不 断 地 查找 ， 依 次 返回 的 是 user、user1、user2 目 孙 
MTS, BRIT A 


} 


执行 完毕 ， 返 回 dir_namei () 函数 ， 将 user2 
目录 文件 的 节点 返回 。 


执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct m_inode * dir_namei (const char * pathname, 


int * namelen,const char ** name) /pathname 就 是 路 
4#/mnt/user/user1/user2/hello.txth tg Et 


{ 

char c; 

const char * basename; 

struct m_inode * dir; 

if (! (dir=get_dir (pathname) ) ) RUT AKAITA ŽI 
return NULL; 


while (c=get_fs_byte (pathname++) ) /遍历 结束 后 ，pathname 会 
指 回 字 符 串 末端 的 /0 


// 逐 个 遍历 mntuservuserluser2/hello.txt" 字 符 串 ， 每 次 循环 都 将 一 
个 字符 复制 给 c 


if (c=="") 


basename=pathname; // 字 符 串 所 历 结束 后 ，basename 将 指 癌 最 后 一 
UNI 1 
广 / 


*namelen=pathname-basename-1; /计算 出 "hello.txt" 名 字 的 长 度 
*name=basename; /得 到 hello.txt 前 面 " 字 符 的 地 址 


return dir; 


最 后 返回 open_namei () Eat, +fuser2 H 
孙 文 件 的 i 点 AHTRA) 返回 并 保存 。 


/代码 路 径 : fs/namei.c: 
int open_namei (const char * pathname, int fag,int mode, 


struct m_inode ** res_inode) 


if (! (dir=dir namei (pathname, S&namelen, & 


basename) ) ) /通过 分 析 路 径 得 到 了 枝 梢 i 节 点 


return-ENOENT; 


open_namei () 函数 的 任务 : 通过 不 断 分 析 
路 径 名 最 终 获 取 枝 梢 i 节点 已 经 完成 ， 下 面 将 通过 
枝 梢 i 闻 点 ， 确 定 目标 文件 hello.txt 的 i 节点 。 


2. 获 取 目 标 文 件 i 贡 所 


获取 hello.txt 目 标 文 件 i 节 点 与 上 一 小 节 中 获取 

BOTT 点 的 内 容 基 本 一 致 ， 也 通过 调用 find_entry 

() 、iget O KARR APICES, FRR 
El O 


执行 代码 如 下 : 


// 代 人 码 路 径 : fs/namei.c: 
int open_namei (const char * pathname, int flag,int mode, 
struct m_inode ** res_inode) 


{ 


if (! (dir=dir namei (pathname, &namelen, & 


basename) ) ) AELA PREIS BOT 点 


return-ENOENT; 


if (! namelen) {/ 如 果 目 标 文件 的 名 字 长 度 为 0 


if (! (flag& (O_ACCMODE|O_CREAT|O_TRUNC) ) ) {// 此 处 
flag 检 查 参 见 5.2.2 节 中 提供 的 flag 屏 蔽 码 


*res_inode=dir; 
return 0; 

} 

iput (dir) ; 
return-EISDIR; 
} 


// 通 过 user2 目 录 文 件 i 太 点 ， 以 及 掌握 的 关于 hello.txt 的 情况 ， 将 
hello.txt 这 一 日 录 项 载 入 缓冲 


// 块 ，de 指 向 hello.txt 目 录 项 
bh=find_entry (&dir,basename,namelen, &de) ; 


ss (! bh) {/whello.txt 目 孙 项 找到 了 ， 缓 冲 块 不 可 能 为 空 ，it 中 此 时 
不 会 执行 


inr=de->inode; /得 到 i 节 点 号 

dev=dir->i_dev; /得 到 hd1l 设 备 的 设备 号 

brelse (bh) ; 

iput (dir) ; /释放 user2 目 录 文 件 i 节 点 

if (flag&O_EXCL) /此 处 flag 检 查 参 见 5.2.2 节 中 提供 的 flag 屏 蔽 码 
return-EEXIST; 

if (! (inode=iget (dev,inr) ) ) // 获 取 hello.txt 这 个 文件 的 i 节点 
return-EACCES; 


if ( (S_ISDIR (inode->i_mode) && (flag& 
O_ACCMODE) ) lw 此 处 flag 检 查 参 见 5.2.2 节 中 提供 的 flag 屏 蔽 码 


! permission (inode,ACC_MODE (flag) ) ) {// 检 查 用 户 访问 该 
文件 的 许可 权限 


iput (inode) ; 
return-EPERM; 
} 


inode- > i_atime=CURRENT_TIME; 


if (flag&O_TRUNC) //flag 检 查 参见 5.2.2 节 中 提供 的 flag 屏 向 码 
truncate (inode) ; 

*res_inode=inode; /将 im 点 传递 给 sys_open 

return 0; 


} 


现在 已 经 得 到 目标 文件 hello.txt 的 i 节点 ， 下 面 
将 这 个 i 节点 与 身 e_table[64] 挂 接 。 


5.2.3 xen Ss Sfile _table[64] 挂 接 


5.2.2 节 中 介绍 到 ，hello.txt 文 件 i 节 点 已 经 被 
载 入 inode_table[32] 中 。 现 在 要 将 该 i 节 点 与 
file_table[64] 进 行 挂 接 ， 目 的 是 使 fle_table[64] 通 
过 inode_table[32] 中 hello.txt 文 件 i 太 点 所 在 表 项 的 
指针 ， 找 到 该 i 节点。 此 外 ， 操 作 系 统 还 对 
hello.txt 文 件 的 属性 、 引 用 计数 、 读 写 指针 偏 移 等 
进行 了 设置 。 


代码 如 下 : 


// 代 码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


ee 


cae 


ae 


if (S_LISCHR (inode->i_mode) ) //hello.txt 文 件 不 是 字符 设备 文 
“会 执行 到 这 里 面 


if (MAJOR (inode->i_zone[0]) ==4) { 

if (current->leader& &current->tty <0) { 
current- > tty=MINOR (inode->i_zone[0]) ; 
tty _table[current- > tty].pgrp=current- > pgrp; 
} 

}else if (MAJOR (inode->i_zone[0]) ==5) 
if (current->tty <0) { 

iput (inode) ; 

current- > filp[fdJ=NULL; 

f- > f_count=0; 

return-EPERM; 

} 

/*Likewise with block-devices: check for floppy_change*/ 


if (S_ISBLK (inode->i_mode) ) //hello.txt 文 件 不 是 块 设备 文 
“会 执行 到 这 里 面 


check _disk_change (inode- >i zone[0]) ; 


f->f_mode=inode->i_mode; // 用 该 节点 属性 ， 设 置 文件 属性 
f->f_flags=flag; // 用 flag 参 数 ， 设 置 文 件 操作 方式 
f->f_count=1; // 将 文件 引用 计数 加 1 


f- >f inode=inode，// 文 件 与 节点 建立 关系 


f->f_pos=0; // 将 文件 读 写 指针 设置 为 0 
return (fd) ; /把 文件 句柄 返回 用 户 空 间 


} 


到 此 为 止 ，fie _table[64] 中 的 挂 接 点 ， 一 端 和 与 
当前 进程 的 *filp[20] 指 针 绑 定 ， 另 一 病 与 
inode_table[32] 中 hello.txt 文 件 的 i 节点 绑 定 。 绑 定 
天 系 建 并 后， 操作 系 统 把 fd 返 给 用 户 进 程 。 
fd 是 挂 接点 在 fle_table[64] 中 的 偏 移 量 ， 即 “文件 
句柄 ”。 进 程 此 后 只 要 把 这 个 fd 传递 给 操作 系统 ， 
操作 系统 就 可 以 判断 出 进程 需要 操作 哪个 文件 ， 
比如 实例 1 中 的 


int size=read (fd,buffer,sizeof (buffer) ) 


这 行程 序 的 目的 是 要 读 取 hello.txt 文 件 中 的 内 
B o LB Edw ehello.txt CHA PSE” ° IAP BN 
RANKS, ARLE LARA ENTER, FF 
进行 操作。 
天 于 读 文件 操作 的 详细 情况 ， 将 在 下 一 世 中 


a8 


5.3” 读 文件 


读 文 件 束 是 从 用 户 进 程 打 开 的 文件 中 读 取 数 
据 ， 读 文件 由 read 范 数 完成 。 


5.3.1 人 确定 数据 块 在 外 设 中 的 位 置 


read () KCR fl sys_read () 系统 调 
用 辑 数 去 执行 。 和 在 执行 主体 内 容 之 前 ， 移 对 此 次 
操作 的 可 行 性 进行 检查 ， 包 括 用 户 进 程 传递 的 文 
FAR > BER Ge aE ABE IAN, A dt 
程 效 据 所 在 的 页 面 能 个 极 写 入 效 据 ， ° 在 这 
些 检查 都 通过 后 ， 开 始 执行 主体 内 容 ， 即 调用 
file_read () 函数 ， 读 取 进 程 指定 的 文件 数据 ， 执 
行 代码 如 下 : 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) /从 hello.txt 文 件 
中 读数 据 


{//fd 是 文件 句柄 ，buf 是 用 户 空 间 指 针 ，count 是 要 读 取 的 字 广 数 
struct file * file; 
struct m_inode * inode; 


if (fd>=NR_OPEN||count<0||!  (file=current-> filp[fd]) ) /检查 
fd、count 是 否 在 合 // 理 范围 内 及 文件 是 否 已 经 打开 


return-EINVAL; 


if (! count) /如 果 读 取 字 节 数 为 0， 直 接 返 回 
return 0; 


verify _area (buf,count) ; /对 buf 所 在 页 面 的 属性 进行 验证 ， 如 果 
该 页 面 是 只 读 的 则 复制 该 页 面 〈 见 第 6 章 ) 


inode=file- > f_inode; 

if (inode->i_pipe) 

return (file->f mode&1) ?read pipe (inode,buf,count) : -EIO; 
if (S_ISCHR (inode->i_mode) ) 


return rw_char (READ, inode->i_zone[0], buf,count, &file-> 
f_pos) : 


if (S_ISBLK (inode->i mode) ) 
return block_read (inode->i zone[0], & file- > f_pos,buf,count) ; 


if (S_ISDIR (inode->i_mode) ||S_ISREG (inode->i_mode) ) 
{//s; thello.txtXC ffi VBE, FAVE CF 


if (count+file- > f_pos > inode- > i_size) 

count=inode- > i_size-file- > f_pos; 

if (count < =0) 

return 0; 

return fle_read (inode,fle,buf,count) ; // 读 取 进 程 指 定数 据 


} 


printk (" (Read) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; return-EINVAL; 


} 


‘Efile read () 中 ， 通 过 调用 bmp () KZK 
确定 指定 的 文件 数据 块 在 外 设 上 的 逻辑 块 号 。 执 
行 代码 如 下 : 


// 代 码 路 径 : include/linux/fs.h: 
#define BLOCK_SIZE 1024 
// 代 码 路 人 径 : fs/fle_dev.c: 


int file read (struct m inode * inode,struct file * filp,char * buf,int 
count) { 


int left,chars,nr; 
struct buffer_head * bh; 
if ( (eft=count) <=0) 


return 0; 


while (left) {/ 每 次 循环 ， 最 多 将 一 个 缓冲 块 (1 KB) 的 数据 复 
制 到 buf 空 间 内 


if (nr=bmap (inode, (filp->f pos) /BLOCK_SIZE) ) { 


// 用 文件 操作 指针 偏 移 量 除 以 BLOCK_SIZE (1024) ， 算 出 要 操作 
文件 中 的 那 一 块 数据 


/对 于 本 案例 ， 此 时 filp- >f_pos 为 0 

/根据 数 据 在 文件 中 的 数据 块 号 ， 确 定 其 在 外 设 上 的 逻辑 块 号 
if (! (bh=bread (inode->i_dev,nr) ) ) /从 外 设 上 读 取 数据 
break; 


}else 


bh=NULL; 


ee ee 


值得 注意 的 是 ，bmp O 函数 调用 _bmp () 
KART, FEO T — NER ° 


代码 如 下 : 


/代码 路 径 : fs/inode.c: 
int bmap (struct m_inode * inode,int block) 
{ 


return _bmap (inode,block, 0) ; /最 后 一 个 参数 是 创建 标志 位 。 
置 0， 表 示 操 作 一 个 已 有 的 块 置 1， 表 示 创 建 一 个 新 的 块 


} 


下 面 移 介绍 im 点 是 如 何 管理 文件 的 。 


i 节 点 通过 它 的 i_zone 结 构 来 管理 文件 数据 
块 ， 有 具体 情景 如 图 5-5 一 图 5-7 所 示 。 
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文件 的 逻辑 块 
文件 数据 块 总 最小 于 等 于 7 块 (每 块 1KB)， 即 7KB 


A 5-5 ”文件 数据 小 于 7 块 时 节点 的 管理 示意 图 
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文件 数据 块 总 量 大 于 7 块 ， 小 于 等 于 
(7+512) 块 (每 块 1KB)， 即 (7+512)KB 


图 5-6 文件 数据 大 于 7 块 、 小 于 (7+512) 块 时 
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ji 节点 的 管理 示意 图 


Sn 
本 
和 
A AA AA 
了 1 ' ‘ 
H ' i | 


FF 
-i E E 
pet Pee 
Es bkasssyg TMT 


bi -hh k. i a 
} 512-38 — mi > 

W- - oe 

ar sia 
hereon e | 一 一 512xs12 个 数据 块 一 一 | 


5-7 ”文件 数据 块 大 于 (7+512) 、 小 于 minix 
介 许 的 极限 情况 时 i 节点 的 管理 示意 图 


i_zone[9] 中 记录 看 文件 数据 块 内 容 的 分 布 情 
但 是 它 毕 竟 只 有 9 个 表 项 ， 文 件数 据 块 数 量 如 


果 多 于 9 个 就 不 够 用 。 为 此 Linux 0.11 采 取 了 一 种 


策略 ， 在 数据 区 中 的 数据 块 内 继续 存储 浊 辑 块 的 
索引 值 ， 以 此 来 分 级 管理 数据 块 ， 这 样 就 可 以 增 
大 管理 的 数据 块 数量 。 


当 数 据 总 量 小 于 等 于 7 KB 时 ，i zone[9] 的 前 7 
TRMACZSEBAT, EV Ra Rada MAY 
1X7 PS AER ERG KATIR S” © 


当 数 据 量 大 于 7 KB 时 ， 就 要 启动 一 级 间接 管 
理 方 案 。i_zone[9] 在 其 第 8 个 成 员 记录 一 个 数据 块 
的 块 号 ， 但 这 个 块 里 面 存储 的 并 不 是 文件 数据 内 
容 ， 而 是 该 文件 后 续 512 个 数据 块 在 外 设 中 的 “这 
辑 块 号 ”。 通 过 这 些 块 号 就 可 以 找到 相应 的 数据 
块 ， 因 为 一 个 数据 块 的 大 小 为 1024 字 方 ， 而 每 个 
块 号 需要 占用 两 个 字 方 ， 所 以 一 个 数据 块 能 存储 
512 个 块 号 。 这 样 ， 对 数据 块 进行 一 级 间接 管理 


时 ， 能 够 管理 的 极限 应 该 是 (7+512) 个 数据 


Hk, BH (7+512) KB 。 


当 数据 量 大 于 (7+512) KB 时 ， 就 要 启动 二 

级 间接 管理 方案 ， 让 其 第 9 个 成 员 记录 一 个 效 据 块 
的 块 号 。 同 样 ， 这 个 块 里 面 存储 的 并 不 是 文件 内 
容 ， 而 是 512 个 数据 块 在 设备 中 的 “逻辑 块 配 *”。 在 
这 512 个 数据 块 中 ， 和 存储 的 仍然 不 古 具 体 的 数据 内 
F, MEERI A o ENR E HMF AEA 
数据 块 的 逻辑 块 号 ， 这 些 块 号 对 应 的 数据 块 中 存 
储 的 才 古 文件 的 具体 数据 内 容 。 对 数据 块 进行 二 
级 间接 管理 时 ， 能 够 管理 的 极限 应 该 是 

(7+512+512x512) 个 数据 块 ， 即 

(7+512+512x512) KB ° 


实例 1 中 ， 此 时 正在 读 取 hello.txt 文 件 的 第 一 
个 数据 块 ， 属 于 小 于 、 等 于 7 个 逻辑 块 的 情况 ， 执 
行 代码 如 下 : 


// 代 码 路 径 : fs/inode.c: 

static int_bmap (struct m_inode * inode,int block,int create) 
{ 

struct buffer_head * bh; 

int i; 

if (block< 0) /如 果 待 操作 文件 数据 块 号 小 于 0 

panic ("_bmap: block<0") ; 


if (block >=7+512+512*512) /如 果 竺 操作 文件 数据 块 号 大 于 人 允 
许 的 文件 数据 块 数量 最 大 值 


panic ("_bmap: block>big") ; 
/小 于 等 于 7 个 逻辑 块 的 情况 
if (block<7) {// 待 操作 数据 块 文件 块 号 小 于 7 


if (create& & ! inode->i_zone[block]) /如 果 是 创建 一 个 新 数据 
块 ， 执 行 下 面 代码 


if (inode->i_zone[block]=new_block (inode->i_dev) ) { 
inode- > i_ctime=CURRENT_TIME;; 

inode- > i_dirt=1; 

} 


return inode->i_zone[block]; /将 i_zone 中 block 项 记录 的 逻辑 块 号 
数值 返回 


} 
/大 于 7、 小 于 等 于 (7+512) 个 逻辑 块 的 情况 
block-=7; 


if (block<512) {/ 待 操作 数据 块 文件 块 号 小 于 512， 需 要 一 级 间 
接 检 索 文 件 块 号 


if (create& & ! inode->i zone[7]) /如 果 是 创建 一 个 新 数据 块 ， 
执行 下 面 代 码 


if (inode->i_zone[7]=new_block (inode->i_dev) ) { 
inode- > i_dirt=1; 

inode- > i_ctime=CURRENT_TIME;; 

} 


if (! inode->i_zone[7]) /一 级 间接 块 中 没有 索引 号 ， 无 法 继续 查 
找 ， 直 接 返 回 0 


return 0; 


ar (! (bh=bread (inode->i_dev,inode->i_zone[7]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) (bh->b_data) ) [block]; // 取 该 间接 块 
上 第 block 项 中 的 逻辑 块 号 


if (create&& ! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代 码 
if (i=new_block (inode->i_dev) ) { 

( (unsigned short *) (bh->b data) ) [block]=i; 

bh- > b_dirt=1; 

} 

brelse (bh) ; 


return 1; 


//========== 大 于 (7+512) 、 小 于 (7+512+512x512) 个 逻辑 块 


block-=512; 


if (create& & ! inode->i_zone[8]) /如 果 是 创建 一 个 新 数据 块 ， 
执行 下 面 代码 


if (inode->i_zone[8]=new_block (inode->i_dev) ) { 
inode- > i_dirt=1; 

inode- > i_ctime=CURRENT_TIME;; 

} 


if (! inode->i_zone[8]) /一 级 间接 块 中 没有 索引 号 ， 无 法 继续 查 
找 ， 直 接 返 回 0 


return 0; 


if (! (bh=bread (inode->i_dev,inode->i_zone[8]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) bh->b_data) [block> >9]; / 取 该 间接 块 
上 第 block/512 项 中 的 逻辑 块 号 


if (create&& 1! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代 码 
if (i=new_block (inode->i_dev) ) { 

( (unsigned short *) (bh->b data) ) [block> >9]=i; 

bh- > b_dirt=1; 

} 

brelse (bh) ; 


if (! i) 


return 0; 
if (! (bh=bread (inode->i_dev,i) ) ) /获取 二 级 间接 块 
return 0; 


i= ( (unsigned short *) bh->b_data) [block&511]; / 取 该 间接 块 
第 二 级 上 第 blockSs511 项 中 的 逻辑 块 号 


if (create&&! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代 码 
if (i=new_block (inode->i_dev) ) { 

( (unsigned short *) (bh->b data) ) [block&511]=i; 

bh- > b_dirt=1; 

} 

brelse (bh) ; 

return 1; 


} 


5.3.2 ”将 数据 块 谈 入 绥 仲 块 


调用 bread O 函数 ， 从 硬盘 中 将 hello.txt 文 件 
的 第 一 个 数据 块 读 入 指定 的 缓冲 块 。 情 景 如 图 5-8 
所 示 。 


i 0x9FFFF OxFFFFF OQx3FFFFF 0x5FFFFF OxFFFFFF 


at ee, 
oo. 


Ee 
图 5-8 将 hello.txt 文 件 的 数据 读 入 高 速 缓冲 区 


执行 代码 如 下 : 


/代码 路 径 : fs/fle_dev.c: 


int file read (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


ee 


while (left) {// 每 次 循环 最 多 将 一 个 缓冲 块 (KB) 的 数据 复制 到 
buf 空 间 内 


f (nr=bmap (inode, (filp->f pos) /BLOCK_SIZE) ) {// 根 据 
数据 在 文件 中 的 数据 块 号 确定 其 在 设备 上 的 逻辑 块 号 


if (! (bh=bread (inode->i devnr) ) ) /从 外 设 上 读 取 数据 


break; 
}else 


bh=NULL; 


bread () RACHA TI, ABE 
3.3.11 FITZ ° 


5.3.3 ”将 缓冲 块 中 的 效 据 复 制 色 进程 空间 


效 据 块 载 入 缓冲 区 后 ， 系 统 要 将 其 从 缓冲 区 
复制 到 指定 的 用 户 进程 数据 空间 (buf) N, H 
行 代码 如 下 : 


// 代 码 路 人 径 : fs/fle_dev.c: 


int file read (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


ee 


}else 
bh=NULL; 


nr=filp- >f_pos%BLOCK_SIZE; // 以 下 4 行 是 计算 具体 要 复制 多 少 
廊 的 数据 到 用 户 空间 


chars=MIN (BLOCK_SIZE-nrleft) ; 

filp- > f_post+=chars; 

left-=chars; 

if (bh) {// 如 果 确 实 从 外 设 上 获取 到 了 数据 

char * p=nr+bh- > b_data; 

while (chars-->0) /将 chars 字 节 的 数据 复制 到 用 户 指定 空间 内 
put _fs_ byte (* (p++) , buf++) ; 


brelse (bh) ; 


Jelse{// aU TE fa xe AX 8 IA] 2 ll chars“ 0 
while (chars-- > 0) 

put _fs byte (0, buf++) ; 

} 

} 

inode- > i_atime=CURRENT_TIME; 

return (count-left) ? (count-left) : -ERROR; 


} 


把 已 经 谈 入 缓冲 块 的 数据 复制 到 用 户 执行 至 
间 的 情景 如 图 5-9 所 示 。 
may Ox9FFFF rial Ox3FFFFF OxSFFFFF OxFFFFFF 
ae me 
A | 


shs, 


将 缓冲 块 中 数 
PRA EA 


图 5-9 将 数据 从 缓冲 块 谈 入 主 内 存 


此 时 只 是 从 hello.txt 文 件 的 起 始 位 置 读 出 了 一 
个 数据 块 (1 KB) 的 数据 。 通 过 while 不 断 地 循 
环 ， 将 指定 数量 的 数据 全 部 载 入 用 户 进程 的 *buf 
区 域 。 


读 文件 操作 讲解 完毕 ， 下 面 通过 实例 2 讲解 新 
建文 件 、 写 文件 操作 。 


实例 2: 用 户 进程 在 硬 到 上 新 建 一 个 文件 ， 并 
将 内 容 写 入 这 个 文件 。 


本 实例 的 内 容 分 为 两 部 分 : “BTEC? A 
入 内 容 ”。 实 例 2 对 应 的 进程 代码 如 下 : 


void main () 

{ 

char str1[]="Hello,world"; 

// 新 建文 件 

int fd=creat ("/mnt/user/user1/user2/hello.txt", 0644) ) ; 
EEA 

int size=write (fd,str1, strlen (str1) ) ; 


} 


5.4 新 建文 件 


新 建文 件 就 是 根据 用 户 进程 要 求 ， 创 建 一 个 
文件 系统 中 不 存在 的 文件 。 新 建文 件 由 creat () 
RH 。 


5.4.1 查找 文件 


creat () 函数 最 终 映射 到 sys_creat () EHR 
中 ， 新 建文 件 和 打开 文件 的 代码 类 似 ， 所 以 进入 
sys_creat () 函数 后 ， 直 接 调用 sys_open () 函数 
来 新 建文 件 。 


Nn 


执行 代码 如 下 : 


// 代 码 路 人 径 : fs/fle_dev.c: 


int sys_creat (const char * pathname,int mode) /创建 一 个 新 文件 
{ 


/注意 : 创建 标志 位 O_CREAT 和 独占 标志 位 O_TRUNC 全 部 置 位 ， 
flag 参 数 与 5.2.2 节 中 的 不 同 了 


return sys_open (pathname,O_CREAT|O_TRUNC,mode) ; 


} 


通过 调用 open_namei () 函数 来 获取 hello.txt 
文件 的 i 点 。 


对 应 代码 如 下 ， 


// 代 码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


ee ee 


mode&=0777 & ~current- > umask; /设置 该 文件 模式 为 用 户 许可 
使 用 模式 


for (fd=0; fd<NR OPEN: fd++) 


if (! current-> filp[fd]) 


return-EINVAL ; 
(current-> filp[fd]=f) ->f_count++; 


if ( (i=open_namei (filename,flagsmode, &inode) ) <0) {/ 获 
取 hello.txt 文 件 i 点 


current- > filp[fdJ=NULL; 


ee 


因为 是 新 建文 件 ， 此 时 该 文件 并 不 存在 ， 
此 open_namei () 函数 中 的 执行 情况 与 5.2.2 节 中 
介绍 的 情况 有 所 区 别 : 调用 dir_namei () 函数 分 
WT PETE BAAR USOT 点 后 ， 查 找 hello.txt 目 
杂项 ， 无 法 找到 ，bh 值 将 为 NULL 。 


执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname, int flag,int mode, 


struct m_inode ** res_inode) 


mode&=0777 & ~current- > umask; 
mode|=I REGULAR; /设置 该 文件 为 普通 文件 


if (! (dir=dir_namei (pathname, &namelen, & 
basename) ) ) /分 析 路 径 ， 获 取 校 梢 证 点 


return-ENOENT; 

if (! namelen) {/*special case: '/usr/'etc*/ 

if (! (flag& (O_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 


return Q0; 


iput (dir) ; 
return-EISDIR;; 


} 


bh=find_entry (&dir,basename,namelen, &de) ; /通过 枝 梢 i 节 
找到 目标 文件 hello.txt 的 目录 项 
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ee ee 


/代码 路 径 : fs/namei.c: 
static struct buffer_head * find_entry (struct m_inode ** dir, 


const char * name,int namelen,struct dir_entry ** res_dir) 


i=0; 
de= (struct dir_entry *) bh->b_data; // 让 de 指 疝 缓冲 块 首 地 址 
while (i<entries) {// 在 绥 冲 块 的 所 有 目录 项 中 查找 hello.txt 目 录 项 


if ( (char*) de>=BLOCK_SIZE+bh->b data) {// 如 果 缓 冲 块 中 
全 部 搜索 完 ， 还 是 没有 找到 hello.txt 目 录 项 


brelse (bh) ; 


项 ， 


bh=NULL; 
if (! (block=bmap (*dir,i/DIR_ENTRIES_PER_BLOCK) ) || 


1! (bh=bread ( (*dir) ->i devblock) ) ) {/ 就 继续 载 入 目录 
继续 找 


i+=DIR_ENTRIES_PER BLOCK; 

continue; 

} 

de= (struct dir_entry *) bh->b_data; 

} 

if (match (namelen,name,de) ) {/ 目 录 项 匹配 确认 
*res_dir=de; /如 果 找 到 了 hello.txt 目 了 永 项 ， 驶 交 给 *res_dir 指 针 


return bh; 


brelse (bh) ; 


return NULL; // 最 终 没有 找到 hello.txt 目 录 项 


5.4.2 erect A, 


1A $< 2llhello.txt A RKM, HARME AA A 
程 的 本 意 就 是 要 新 建 hello.txt 文 件 (有 可 能 是 用 户 
进程 把 路 径 名 输入 销 了 ) ， 所 以 还 要 检查 新 建 节 
点 前 ，flag 中 的 O_CREAT 标 志 位 是 否 置 位 。 如 果 
确实 置 位 了 ， 束 确定 用 户 进 程 确实 古 要 新 建 一 个 
文件 (5.4.1 节 中 介绍 到 确实 已 经 置 位 了 ) oA 
外 ， 新 建 hello.txt 文 件 i7 点 ， 将 在 user2 目 永 文件 
中 写 入 hello.txt 文 件 对 应 的 新 目 孙 项 信息 ， 所 以 还 
需 检 查 进 程 对 该 目 台 文件 是 否 具备 写 入 权限 。 之 
后 ， 再 调用 new_inode () KARIET A, H 


对 iT 点 属性 等 信息 进行 设置 。 


执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname, int flag,int mode, 


struct m_inode ** res_inode) 


if (! (dir=dir_namei (pathname, &namelen, & 
basename) ) ) /分 析 路 径 ， 获 取 校 梢 证 点 


return-ENOENT; 

if (! namelen) {/*special case: '/usr/'etc*/ 

if (! (flag& (O_ACCMODE|O_CREAT|O_TRUNC) ) ) { 
*res_inode=dir; 

return 0; 

} 

iput (dir) ; 


return-EISDIR;; 


bh=find_entry (&dir,basename,namelen, &de) ; /通过 校 梢 ji 
找到 目标 文件 的 日 录 项 
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if (! bh) {/ 没 有 获取 目录 项 ， 缓 冲 块 为 空 


if (! (flag&O_CREAT) ) {/ 确 定 用 户 确实 是 要 新 建 一 个 文件 
iput (dir) ; 
return-ENOENT; 


} 


if (! permission (dir. MAY WRITE) ) MEH £f user? H 
录 文 件 中 有 写 入 权限 


iput (dir) ; 

return-EACCES; 

} 

inode=new_inode (dir->i_dev) ; /新 建 i 节 点 
if (! inode) { 

iput (dir) ; 

return-ENOSPC; 

} 


inode- >i_uid=current->euid; /设置 i 节点 用 户 id 


inode- >i_mode=mode; /设置 证 点 访问 模式 

inode- >i_dirt=1; // 将 节点 已 改写 标志 置 1 

bh=add_entry (dir,basename,namelen, &de) ; // 新 建 目录 项 
if (! bh) { 

inode- > i_nlinks--; 

iput (inode) ; 

iput (dir) ; 


return-ENOSPC; 


de- > inode=inode- > i_num; 
bh-> b_dirt=1; 

brelse (bh) ; 

iput (dir) ; 
*res_inode=inode; 


return 0; 


ee ee 


new_inode () 男 数 执行 狐 建 i 条 点 的 任务 分 
为 两 部 分 : 


1) 要 在 i 市 上 把 位 图 中 ， 对 新 建 i 节点 对 应 的 位 
予以 标识 。 


2) 要 将 i 节 点 的 部 分 属性 信息 载 入 
inode_table[32] 表 中 指定 的 表 项 。 


执行 代码 如 下 : 


/代码 路 径 : fs/bitmap.c: 

struct m_inode * new_inode (int dev) 
{ 

struct m_inode * inode; 


struct super_block * sb; 


struct buffer_head * bh; 
int ij; 


if (! (inode=get_empty_inode () ) ) /在 inode_table[32] 中 获取 
空闲 证 点 项 


return NULL; 


if (! (sb=get_super (dev) ) ) /获取 设备 超级 块 (安装 文件 系 
统 时 已 载 入 ) 


panic ("new_inode with unknown device") ; 

j=8192; // 以 下 是 根据 超级 块 中 i 节点 位 图 信息 ， 设 置 廊 扣 位 图 
for (i=0; i<8; i++) 

if (bh=sb->s_imap[i]) 

if ( (j=find_first_zero (bh->b data) ) <8192) 

break; 

if (! bhllj >=8192||j+i*8192 >sb->s_ninodes) { 

iput (inode) ; 

return NULL; 

} 


if (set_bit (j,bh->b_data) ) /以 上 是 根据 超级 块 中 i 节点 位 图 信 
息 ， 设 置 i 节 点 位 图 


panic ("new_inode: bit already set") ; 

bh-> b_dirt=1; VÄT MAPPED SURO iG E1 
// 以 下 对 i 节操 属性 进行 设置 

inode- > i_count=1; 

inode- > i_nlinks=1; 

inode- > i_dev=dev; 

inode- > i_uid=current- > euid; 

inode- > i_gid=current- > egid; 

inode- > i_dirt=1; 

inode- > i_num=j+i*8192; 


inode- > i_mtime=inode- > i_atime=inode- > 
i_ctime=CURRENT_TIME; 


return inode; 


5.4.3 BESTE H aM 


hello.txt 的 目录 项 要 载 入 user2 目 杂文 件 中 ， 这 
里 先 介 绍 目录 文件 的 示意 图 ( 见 图 5-10) ° 

图 5-10 中 的 情况 1 为 一 个 目 邓 文件 的 初始 状 
AS; 情况 2 是 将 其 中 的 目录 项 删除 (删除 的 本 质 就 
是 将 目录 项 中 的 i 太 扣 号 清 0) ; 情况 3、 情 况 4 和 
情况 5 都 是 不 断 地 加 载 目 孙 项 时 出 现时 情况 。 


调用 add_entry () 函数 来 新 建 目录 项 。 


; 第 一 个 ; 第 二 个 | 第 三 个 | 第 四 个 ; 
| 数据 块 ; 数据 块 | 数据 块 ; 数据 块 
i (IKB) | (1 KB) | (1 KB) | (1 KB) | 
a a es 情况 I 
目录 文件 四 四 T ; 情况 2 
oa i tee 
o: TT | :情况 4 
ccf ETT 7 
日 从 未 占用 的 目录 项 
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图 5-10 目录 文件 示意 图 


执行 代码 如 下 : 


// 代 人 码 路 径 : fs/namei.c: 


int open_namei (const char * pathname,int flag,int mode,struct 
m_inode ** res_inode) 


inode=new_inode (dir->i dev) ; /新 建 i 节 点 


if (! inode) { 

iput (dir) ; 

return-ENOSPC; 

} 

inode- > i_uid=current->euid; EiT AAA Pid 
inode->i_mode=mode; /设置 证 点 访问 模式 
inode->i_dirt=1; // 将 i 节点 使 用 标志 置 1 
bh=add_entry (dir,basename,namelen, &de) ; /添加 目录 项 
if (! bh) { 

inode- > i_nlinks--; 

iput (inode) ; 

iput (dir) ; 

return-ENOSPC; 


} 


de- > inode=inode->i_num; // 在 目录 项 中 添加 i 节点 号 
bh- > b_dirt=1; 


brelse (bh) ; 


iput (dir) ; 
*res_inode=inode; 


return 0; 


ee 


add_entry () 函数 的 任务 是 : 只 要 在 目录 文 
件 中 寻找 到 空 几 项 ， 束 在 此 位 置 处 加 载 新 目 邓 
项 ， 如 来 确实 找 不 到 空 几 项 ， 束 在 外 设 上 创建 新 
的 数据 块 来 加 载 ， 加 载 的 情景 如 前 面 示 意图 所 


A S 


执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 


static struct buffer_head * add_entry (struct m_inode * dir, 


const char * name,int namelen,struct dir_entry ** res dir) /在 user2 


H KPAI H aR 


int block, i; 

struct buffer_head * bh; 
struct dir_entry * de; 
*res_dir=NULL; 

#ifdef NO_TRUNCATE 

if (namelen>NAME_LEN) 
return NULL; 

#else 

if (namelen>NAME_LEN) 
namelen=NAME _ LEN; 
#endif 

if (! namelen) 

return NULL; 


if (! (block=dir->i_zone[0]) ) /确定 user2 目 录 文 件 第 一 个 文件 
块 在 设备 上 的 逻辑 块 号 〈 不 能 是 0) 


return NULL; 


if (! (bh=bread (dir->i_dev,block) ) ) /将 目录 文件 的 内 容 载 


入 一 个 数据 块 


项 


return NULL; 
i=0; 


de= (struct dir_entry *) bh->b_data; 


while (1) {V/ 在 目录 文件 中 搜索 空闲 目录 项 
/如 果 整 个 数据 块 中 都 没有 空闲 项 ， 就 载 入 下 一 个 数据 块 继续 搜索 
/全 部 载 入 后 仍然 没有 ， 就 在 设备 上 新 建 数据 块 ， 用 以 加 载 新 目录 


if ( (char *) de>=BLOCK_SIZE+bh->b_data) { 
brelse (bh) ; 

bh=NULL; 

block=create_block (dir,i/DIR_ENTRIES_PER_BLOCK) ; 
if (! block) 

return NULL; 

if (! (bh=bread (dir->i_dev,block) ) ) { 


i+=DIR_ENTRIES_PER_ BLOCK; 


continue; 

} 

de= (struct dir_entry *) bh->b_data; 

} 

/在 数据 块 的 末端 找到 空闲 项 ， 束 在 空 采 位 置 加 载 目 孙 项 
if (i * sizeof (struct dir_entry) >=dir->i size) { 

de- > inode=0; 

dir- >i size= (i+1) *sizeof (struct dir_entry) ; 

dir- > i_dirt=1; 

dir- > i_ctime=CURRENT_TIME;; 

} 

/在 数据 块 的 中 间 某 位 置 找到 空 亲 项 ， 融 在 该 位 置 加 载 目录 项 
if (! de->inode) { 

dir- > i_mtime=CURRENT_TIME; 

for (i=0; i< NAME_LEN; i++) 

de->name[iJ= (i<namelen) ?get_fs_byte (name+i) : 0; 


bh- > b_dirt=1; 


*res_dir=de; 


return bh; 


brelse (bh) ; 
return NULL; 


} 


值得 注意 的 是 create_block () ERA o J HZ 
函数 的 执行 代码 如 下 : 


/代码 路 径 : fs/inode.c: 
int create block (struct m_inode * inode, int block) 


{ 


// 最 后 一 个 参数 是 创建 标志 位 ， 与 本 章 5.3.1T 中 不 同 的 是 ， 此 时 它 
REAL, RNA PRA MAR 


return _bmap (inode,block, 1) ; 


} 


进入 _bmp O 函数 后 ， 值 得 关注 的 代码 如 
F: 


/代码 路 径 : fs/inode.c: 

static int_bmap (struct m_inode * inode, int block,int create) 
{ 

struct buffer_head * bh; 

int 1; 

if (block< 0) /如 果 待 操作 文件 数据 块 号 小 于 0 

panic ("_bmap: block<0") ; 


if (block >=7+512+512*512) /如 果 竺 操作 文件 数据 块 号 大 于 人 允 
许 的 文件 数据 数量 最 大 值 


panic ("_bmap: block > big") ; 


/小 于 等 于 7 个 逻辑 块 的 情况 
if (block<7) {/ 待 操作 数据 块 文件 块 号 小 于 7 


if (create& & ! inode->i_zone[block]) /如 果 是 创建 一 个 新 数据 
块 ， 执 行 下 面 代码 


if (inode->i zone[block]=new_block (inode->i_dev) ) { 
inode- > i_ctime=CURRENT_TIME; 

inode- > i_dirt=1; 

} 


return inode->i_zone[block]; // 将 i_zone 中 block 项 记录 的 逻辑 块 号 
数值 返回 


} 
// 大 于 7、 小 于 等 于 (7+512) 个 逻辑 块 的 情况 
block-=7; 


if (block<512) {/ 待 操作 数据 块 文件 块 号 小 于 512， 需 要 一 级 间 
接 检 索 文件 块 号 


if (create& & ! inode->i_zone[7]) /如 果 是 创建 一 个 新 数据 块 ， 
执行 下 面 代码 


if (inode->i zone[7]=new block (inode->i dev) ) { 


inode- > i_dirt=1; 


inode- > i_ctime=CURRENT_TIME; 
} 


if (! inode->i_zone[7]) // 一 级 间接 块 中 没有 索引 号 ， 无 法 继续 查 
找 ， 直 接 返 回 0 


return 0; 


if (! (bh=bread (inode->i_dev,inode->i_zone[7]) ) ) /获取 一 
级 间接 块 


return 0; 


i= ( (unsigned short *) (bh->b_data) ) [block]; // 取 该 间接 块 
上 第 block 项 中 的 逻辑 块 


if (create&&! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代 码 
if (i=new_block (inode->i_dev) ) { 
( (unsigned short *) (bh->b data) ) [block]=i; 
bh- > b_dirt=1; 
} 
brelse (bh) ; 
return i; 
} 


/大 于 (74512) “小 于 (745124512512) 个 逻辑 块 的 情况 


block-=512; 


if (create& & ! inode->i_zone[8]) // 如 果 是 创建 一 个 新 数据 块 ， 


执行 下 面 代码 


if (inode->i_zone[8]=new_block (inode->i dev) ) { 
inode- > i_dirt=1; 
inode- > i_ctime=CURRENT_TIME; 


} 


if (! inode->i_zone[8]) /一 级 间接 块 中 没有 索引 号 ， 无 法 继续 查 


找 ， 直 接 返 回 0 
return 0; 
if (! (bh=bread (inode->i_dev,inode->i_zone[8]) ) ) /获取 一 
级 间接 块 
return 0; 
i= ( (unsigned short *) bh->b_data) [block> >9]; / 取 该 间接 块 
上 第 block/512 项 中 的 逻辑 块 号 


if (create&&! i) // 如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i_dev) ) { 
( (unsigned short *) (bh->b data) ) [block> >9]=i; 


bh- > b_dirt=1; 


} 

brelse (bh) ; 

if (li) 

return 0; 

if (! (bh=bread (inode->i_dev,i) ) ) /获取 二 级 间接 块 
return 0; 


i= ( (unsigned short *) bh->b_data) [block&511]; / 取 该 间接 块 
B-P EBblock& 51150 PAE IRS 


if (create& & ! i) /如 果 是 创建 一 个 新 数据 块 ， 执 行 下 面 代码 
if (i=new_block (inode->i_dev) ) { 

( (unsigned short *) (bh->b data) ) [block&511]=i; 

bh- > b_dirt=1; 

} 

brelse (bh) ; 

return 1; 


} 


create 标 志 置 位 ， 不 等 于 束 要 创建 一 个 狐 数 据 
块 ， 必 须 确保 文件 的 下 一 个 文件 块 不 存在 ， 即 ! 
inode->i_zone[..…..] 或 ! i 成立， 才能 创建 新 数据 
块 。 比 如 本 实例 中 加 载 目 台 项 的 内 容 ， 一 个 数据 
块 中 没有 发 现 空 几 项， 很 可 能 下 一 个 数据 块 中 束 
有 ， 如 来 强行 分 配 新 数据 块 ， 束 会 把 已 有 的 块 覆 
mis, SBCA RICHES BEL ° 


新 建 数据 块 的 工作 在 new_block () EARTH 


行 ， 将 在 本 章 5.5 市 中 详细 介绍 。 


靳 建 目 邓 项 的 情景 如 图 5-11 所 示 。 
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5.5” 写 文件 


操作 系统 对 写 文 件 操作 的 规定 是: 进程 空间 
的 数据 先 要 写 入 绥 冲 区 中 ， 然 后 控 作 系统 在 适当 
的 条 件 下， 将 缓冲 区 中 的 数据 同步 到 外 设 上 。 而 
H, 操作 系 统 只 能 以 数据 块 (1 KB) 为 单位 ， 将 
缓冲 区 中 的 缓冲 块 (1 KB) 的 数据 同步 到 外 设 
上 。 这 束 需 要 在 同步 之 前 ， 绥 冲 块 与 外 设 上 要 写 
入 的 逻辑 块 进行 一 对 一 乡 定 ， 人 确定 外 设 上 的 写 入 
位 置 ， 以 此 你 证 用 户 空 间 写 入 缓冲 块 的 数据 ， 能 
够 准确 地 同步 到 指定 逻辑 块 中 。 


首先 介绍 如 何 确定 绑 定 关系 。 


5.5.1 确定 文件 的 写 入 位 置 


write () 函数 最 终 回 射 到 sys_write () 函数 


中 去 执行 。 该 函数 和 匈 对 参数 的 合理 性 进行 检查 ， 
之 后 调用 file_ write () KALE MIF ° 


执行 代码 如 下 : 


/代码 路 径 : fs/read_write.c: 

int sys_write (unsigned int fd,char * buf,int count) // 写 文件 
{ 

struct file * file; 

struct m_inode * inode; 


if (fd>=NR_OPEN||count<0]|! (file=current- > filp[fd]) ) //fd ` 
count 是 否 在 合理 范围 内 及 文件 是 否 已 经 打开 


return-EINVAL; 


if (! count) /如 果 写 入 字 节 数 为 0， 直 接 返 回 
return 0; 


inode=file- > f_inode; 


if (inode->i_pipe) 


return (file->f mode&2) ?write pipe (inode,buf,count) : - 
EIO; 


if (S ISCHR (inode->i mode) ) 


return rw_char (WRITE,inode->i_zone[0], buf,count, & file-> 
f pos) ; 


if (S ISBLK (inode->i mode) ) 


return block write (inode->i_zone[0], &file-> 
f_pos,buf,count) ; 


if (S_ISREG (inode->i_mode) ) /确定 待 写 入 文件 是 普通 文件 
return file write (inode,file,buf,count) ; // 写 文件 


printk (" (Write) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; 


return-EINVAL; 


} 


用 户 进 程 传递 的 flags 参 数 ， 决 是 了 文件 的 数 
据 写 入 位 置 。 因 此 进入 fle_write () KAUR, 3 
检查 f_flags 标 志 位 来 确定 写 入 位 置 ， 之 后 ， 调 用 


create_block () 函数 ， 创 建 一 个 与 该 文件 位 置 对 
应 的 外 设 逻 辑 块 ， 并 返回 逻辑 块 号 。 


执行 代码 如 下 : 


// 代 码 路 人 径 : fs/fle_dev.c: 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


{ 

off _t pos; 

int block,c; 

struct buffer_head * bh; 
char * p; 

int i=0; 

/六 


*ok,append may not work when many processes are writing at the 
same time 


*but so what.That way leads to madness anyway. 


*/ 
if (filp->f_flags&O_APPEND) /如 果 设 置 了 文件 尾部 加 写 标 志 
pos=inode- >i_size; /pos 移 至 文件 尾部 


else 


pos=filp->f_pos; /直接 从 文件 指针 f_pos 当 前 指向 的 位 置 处 开始 
写 入 数据 (本 案例 是 这 种 情况 ，f_pos 为 0) 


while (i<count) { 


if (! (block=create_block (inode,pos/BLOCK_SIZE) ) ) /创建 
逻辑 块 ， 并 返回 块 号 


break; 


if (! (bh=bread (inode->i_dev,block) ) ) /申请 缓冲 块 (不 需 
要 读 出 来 ) 


break; 


BI— SAVAGE, FE STA PPE 
Hi_zone[9]X} hy. ° 


执行 代码 如 下 : 


/代码 路 径 : fs/inode.c: 
int create block (struct m_inode * inode, int block) 
{ 


return _bmap (inode,block, 1) ; /最 后 一 个 参数 是 创建 标志 位 ， 
置 1， 表 示 创 建 一 个 新 的 块 


} 

/代码 路 径 : fs/inode.c: 

Static int_bmap (struct m_inode * inode, int block,int create) 
{ 

struct buffer_head * bh; 

int 1; 

if (block< 0) /如 果 待 操作 文件 数据 块 号 小 于 0 

panic ("_bmap: block<0") ; 


if (block >=7+512+512*512) // 如 果 待 操作 文件 数据 块 号 大 于 人 允 
许 的 文件 数据 块 数量 最 大 值 


panic ("_bmap: block>big") ; 


if (block<7) {/ 待 操作 数据 块 文件 块 号 block 小 于 7， 本 案例 中 
block 为 0 


if (create& &! inode->i_zone[block]) /创建 一 个 新 数据 块 


if (inode->i_zone[block]=new_block (inode->i_dev) ) {// 将 新 建 
数据 块 和 /im 点 中 的 i_zone[9] 对 应 


inode- > i_ctime=CURRENT_TIME; 
inode- > i_dirt=1; 
} 


return inode- > i_zone[block]; /将 i_zone[9] 中 block 项 记录 的 逻辑 块 
号 数值 返回 


具体 的 创建 工作 是 在 new_block () 函数 中 进 
行 的 ， 内 容 包括 两 部 分 : 


1) 将 新 建 数据 块 对 应 的 逻辑 块 位 图 置 1 。 


2) 在 缓冲 区 中 为 新 建 的 数据 块 申 请 缓冲 块 ， 
用 以 承载 写 入 的 内 容 。 


执行 代码 如 下 : 


/代码 路 径 : fs/bitmap.c: 

int new_block (int dev) /创建 一 个 新 数据 块 
{ 

struct buffer_head * bh; 

struct super_block * sb; 

int ij; 


if (! (sb=get_super (dev) ) ) /获取 设备 的 超级 块 (RICE 
系统 时 已 载 入 ) 


panic ("trying to get new block from nonexistant device") ; 
j=8192; 


// 以 下 是 根据 超级 块 中 逻辑 块 位 图 信息 ， 对 新 数据 块 的 逻辑 块 位 


进行 设置 


for (i=0; i<8; i++) 


if (bh=sb- > s_zmap[i]) 

if ( (j=find_first_zero (bh->b data) ) <8192) 
break; 

if (i>=8]|! bhllj >=8192) 

return 0; 


if (set_bit (j,bh->b_data) ) /以 上 是 根据 超级 块 中 逻辑 块 位 图 信 
对 新 数据 块 的 逻辑 块 位 图 进行 设置 


panic ("new_block: bit already set") ; 


bh-> b_dirt=1; /将 逻辑 块 位 图 所 在 的 缓冲 块 使 用 标记 置 1 (已 改 


jt+=i*8192+sb->s_firstdatazone-1; // 确 定数 据 块 逻辑 块 号 
if (j>=sb->s nzones) 
return 0; 


if (! (bh=getblk (dev,j) ) ) /在 缓冲 区 中 ， 为 新 的 数据 块 申请 


一 个 空闲 缓冲 块 


panic ("new_block: cannot get block") ; 
if (bh->b count! =1) 
panic ("new block: count is! =1") ; 


clear block (bh->b_ data) ; /将 该 逻辑 块 中 数据 清 零 


bh->b_uptodate=1; /已 更 新 标志 被 置 1 
bh->b_dirt=1; /已 改写 标志 被 置 1 
brelse (bh) ; 

return j; 


} 


5.5.2 ”申请 缓冲 块 


调用 bread () 函数 ， 由 于 new_block () & 
AOI TRIER, MAAEMA MEEA 
逻辑 块 了 ， 执 行 代码 如 下 : 


/代码 路 径 : fs/fle_dev.c: 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


while (i<count) { 


if (! (block=create_block (inode,pos/BLOCK_SIZE) ) ) /创建 
新 的 数据 块 


break; 
if (! (bh=bread (inode->i_dev,block) ) ) / 载 入 缓冲 块 


break; 


c=pos%BLOCK_SIZE; 


ee ee 


/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread (int dev,int block) 
{ 

struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) /数据 块 已 与 哈 希 表 挂 接 ， 不 
需要 从 外 设 上 读 取 


panic ("bread: getblk returned NULL\n") ; 


if (bh->b_uptodate) //b_uptodatefEnew_block () 中 被 置 1， 直 接 
返回 


return bh; 

ll_rw_block (READ,bh) ; 
wait _on_buffer (bh) ; 

if (bh->b_uptodate) 
return bh; 


brelse (bh) ; 


return NULL; 


5.5.3 ”将 指定 的 数据 从 进程 空间 复制 到 绥 
THER 


将 数据 复制 到 指定 缓冲 块 的 情景 如 图 5-12 所 
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即将 写 入 的 子 从 为 “Hello,world”， 一 个 缓冲 


块 足以 承载 了 ， 因 此 while 循 环 只 进行 一 次 。 执 行 
代码 如 下 : 


/代码 路 径 : fs/fle_dev.c: 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


ee 


if (! (bh=bread (inode->i_dev,block) ) ) /申请 缓冲 块 (不 需 
要 读 出 来 ) 


break; 

c=pos%BLOCK_SIZE; /以 下 代码 计算 各 缓冲 块 中 写 入 字 节 数 
p=c+bh- > b_data; 

bh- > b_dirt=1; 

c=BLOCK_SIZE-c; 

if (c>count-i) c=count-i; 

pos+=c; 

if (pos>inode->i_size) { 

inode- > i_size=pos; 

inode- > i_dirt=1; 


} 


i+=C; 

while (c-->0) 

* (p++) =get_fs_byte (buf++) ; // 将 数据 写 入 指定 的 缓冲 块 
brelse (bh) ; 

} 

inode- > i_mtime=CURRENT_TIME; 

if (! (filp->f_flags&O_APPEND) ) { 
filp- > f{_pos=pos; 

inode- > i_ctime=CURRENT_TIME; 

} 

return (i?i: -1) ; 


} 


区 中 ， 并 未 写 入 硬盘 。 下 面 介 绍 数据 从 缓冲 区 同 
步 到 硬盘 的 方式 。 


5.5.4 数据 同步 到 外 设 的 两 种 方法 


数据 从 缓冲 区 同步 到 便 盘 有 两 种 方法 。 一 种 
是 updata 定 期 同步 ， 另 一 种 是 因 缓 冲 区 使 用 达到 
极 了 上限， 操作 系统 强行 同步 。 


本 书 4.4.1 节 中 介绍 到 ，shell 进 程 在 第 一 次 执 
行 时 ， 启 动 了 一 个 updata 进 程 。 这 个 进程 常 驻 于 
内 存 ， 功 能 就 是 将 缓冲 区 中 的 数据 同步 到 外 设 
上 o 


该 进程 会 调用 pause () EWA, ik SALAH 
射 到 sys_pause () 函数 中 ， 使 该 进程 被 设置 为 可 
中 断 等 竺 状态 。 每 隔 一 段 时 间 ， 操 作 系 统 束 将 


updataj 进 程 唤醒 。 它 执行 后 ， 调 用 sync O 函数 ， 
将 缓冲 区 中 的 数据 同步 到 外 设 上 。 


sync () KRAJI Zllsys_sync () 系统 调 
用 函数 去 执行 。 为 了 保证 文件 内 容 同步 的 完整 
E, 需要 将 文件 市 点 位 图 、 文 件 季 后、 文件 数据 
块 、 数 据 块 对 应 的 逻辑 块 位 图 ， 全 部 同 步 到 外 
设 。sys_sync O 图 数 完 将 改动 过 的 文件 i 节操 写 
入 缓冲 区 (其 余 内 容 已 经 在 缓冲 区 中 了 ) ， 之 
后 ， 通 历 整 个 绥 冲 区 ， 只 要 发 现 其 中 缓冲 块 内 容 
被 改动 过 (b_dirt 被 置 1) ， 束 全 部 同步 到 外 设 
bs 


执行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


int sys_sync (void) 


int 1; 

struct buffer_head * bh; 

sync _inodes () ; // 将 i 节点 写 入 绥 冲 区 

bh=start_buffer; 

for (i=0; i<NR_BUFFERS; i++, bh++) {6 HARI 


wait_on_buffer (bh) ; // 如 果 哪 个 缓冲 块 正在 使 用 ， 就 等 待 这 
缓冲 块 解 锁 


if (bh->b_dirt) /只 要 这 个 缓冲 块 中 的 内 容 被 改写 
ll _rw_block (WRITE,bh) ; /将 该 缓冲 块 的 内 容 同步 到 外 设 中 
} 


return 0; 


rin ATES Æ Hsync_inodeW alse AY 


执行 代码 如 下 : 


// 代 码 路 径 : fs/inode.c: 


void sync_inodes (void) 


int i; 

struct m_inode * inode; 

inode=0+inode_table; 

for (i=0; i<NR_INODE; i++, inode++) {// 人 遍历 所 有 i 节点 


wait_on_inode (inode) ; // 如 果 遍 历 到 的 i 节点 正在 使 用 就 等 待 该 i 
节点 解锁 


if (inode->i_dirt& &! inode->i_pipe) // 如 果 i 节 点 内 容 已 经 改动 
过 ， 而 且 不 是 管道 文件 的 i 节点 


write _inode (inode) ; // 将 i 节点 同步 到 绥 冲 区 
} 

} 

/代码 路 径 : fs/inode.c: 


Static void write_inode (struct m_inode * inode) 


{ 

struct super_block * sb; 

struct buffer_head * bh; 

int block; 

lock _inode (inode) ; // 先 将 节点 加 锁 ， 以 免 被 干扰 
if (! inode->i_dirt||! inode->i_dev) { 

unlock _inode (inode) ; 

return; 

} 

if (! (sb=get_super (inode->i_dev) ) ) /获取 外 设 超级 块 
panic ("trying to write inode without device") ; 
block=2+sb- >s_imap_blocks+sb- >s_zmap_blocks+ 


(inode- >i num-1) /INODES PER BLOCK; /W/ 确 定 i 节 点 位 图 在 
外 设 上 的 逻辑 块 号 


if (! (bh=bread (inode->i_dev,block) ) ) // 将 i 节点 所 在 逻辑 块 
载 入 缓冲 区 


panic ("unable to read i-node block") ; 


( (struct d_inode *) bh->b data) /将 i 节 点 同步 到 缓冲 区 


[ (inode->i_num-1) %INODES_PER_BLOCK]= 
* (struct d_inode *) inode; 

bh->b_dirt=1; /将 缓冲 块 的 b_dirt 置 1 

inode- > i_dirt=0; // 将 i 节点 的 i_dirt 置 0 

brelse (bh) ; 

unlock inode (inode) ; Vi 节点 解锁 


} 


同步 工作 完成 后 ，updataj 进 程 将 被 挂 起 ， 下 
一 次 被 唤醒 后 ， 继 续 同 步 缓 冲 区 。 
第 二 种 方法 : 


实例 2 的 场景 比较 何 单 ， 它 写 入 绥 促 区 的 数据 
比较 少 ， 我 们 不 妨 对 其 稍 加 改动 ， 来 看 下 面 源 代 
A: 


void main () 

{ 

char str1[]="Hello,world"; 

int i; 

// 新 建文 件 

int fd=creat ("/mnt/user/user1/user2/hello.txt", 0644) ) ; 
MESA 

for (i=0; i< 1000000; i++) 

{ 

int size=write (fd,str1, strlen (str1) ) ; 
} 


} 


要 写 入 的 数据 将 达到 10 MB 以 上 ， 而 缓冲 
区 ， 肯 定 不 可 能 超过 10 MB， 因 此 ， 当 前 进程 要 
写 入 数据 的 话 ， 很 可 能 在 updataj 进 程 被 唤醒 之 


前 ， 就 已 经 将 缓冲 区 写 满 ， 若 继续 写 入 ， 就 需要 
强行 将 缓冲 区 中 的 数据 同步 到 硬盘 ， 为 续 写 腾 出 
空间 。 


此 任务 是 由 getblk () 函数 完成 的 。 本 书 3.3.1 
节 中 已 经 对 此 函数 进行 过 介绍 ， 当 在 缓冲 区 中 找 
到 的 空 闪 块 都 已 经 无 法 继续 写 入 信息 (b_dirt 都 是 
1) 时 ， 束 说 明和 需要 腾空 间 了 。 


执行 代码 如 下 : 


// 代 码 路 人 径 : fs/buffer.c: 

struct buffer_head * getblk (int dev,int block) 
{ 

struct buffer_head * tmp, *bh; 

repeat: 


if (bh=get_hash_table (dev,block) ) 


return bh; 

tmp=free_list; 

do{ 

if (tmp->b_count) 

continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 


}while ( (tmp=tmp- > b_next_free) | =free list) ; // 找 到 空闲 的 
缓冲 块 (不 等 价 于 b_dirt 是 0) 


if (! bh) { 
sleep _on (&buffer_wait) ; 
goto repeat; 


} 


wait on buffer (bh) ; 
if (bh->b count) 
goto repeat; 


while (bh->b_dirt) {// 虽 然 找 到 空 闻 缓冲 块 ， 但 b_dirt 仍 是 1， 说 
明 缓 冲 区 中 已 无 可 用 的 缓冲 块 了 ， 需 要 同步 腾空 


sync_dev (bh->b_dev) ; /同步 数据 
wait _on_buffer (bh) ; 

if (bh->b_count) 

goto repeat; 

} 


/*NOTE! While we slept waiting for this block,somebody else 
might*/ 


/*already have added"this"block to the cache.check it*/ 
if (find_buffer (dev,block) ) 
goto repeat; 


/*OK,FINALLY we know that this buffer is the only one of it's kind, 
my 


/*and that it's unused (b count=0) , unlocked (b lock=0) , and 
clean*/ 


bh- > b_count=1; 

bh- > b_dirt=0; 

bh- > b_uptodate=0; 

remove from _queues (bh) ; 
bh- > b_dev=dev; 

bh- > b_blocknr=block; 

insert _into_queues (bh) ; 
return bh; 


} 


以 上 束 古 数据 同步 的 两 种 策略 。 


值得 注意 的 是 ，5.5.3 太 中 p 指 同 的 数据 块 是 新 
用 请 的 ， 之 前 没有 内 容 ， 从 指定 数据 块 的 起 始 位 
置 开始 写 和 数据， 不 会 影响 已 有 效 据 ; MWR 
hello.txt 不 十 一 个 新 建文 件 ， 而 十 已 有 文件 ， 则 指 
名 p 无 论 往 哪 个 数据 块 写 入 数据 ， 部 会 把 这 个 数据 


块 中 写 入 点 后 面 已 有 的 数据 覆盖 掉 〈 除 非 是 在 尾 
端 加 写 ) 。 


这 意味 痢 用 户 只 能 在 文件 尾 端 “ 加 写 ? 数 据 ; 
如 采 想 在 文件 中 间 "“ 改 写 ? 数 据 ， 单 纯 依 徘 
sys_write () KRIS HE) o PHAM MALAY 
据 这 种 更 为 复杂 的 文件 写 和 情况， 操作 系统 又 该 
如 何 处 理 呢 ? 下 面 将 详细 讲解 。 


5.6 ”修改 文件 


修改 文件 的 本 质 就 是 可 以 在 文件 的 任意 位 置 
插入 数据 、 删 除数 据 ， 且 不 影 啊 文 件 已 有 数据 。 
此 问题 的 处 理 方案 是 : 将 sys_read () 、sys_write 
O 以 及 sys_lseek () 几 个 函数 组 合 使 用 。 
sys_read () 和 sys_write () 函数 已 在 5.3 节 和 5.5 
节 中 介绍 。 这 里 先 介绍 sys_lseek () 画 数 ， 之 后 
再 介绍 如 何 组 合 使 用 它们 。 


5.6.1 重 定位 文件 的 当前 操作 指针 


用 户 进 程 调用 lseek () 函数 ， 将 文件 的 当前 
操作 指针 f_pos 进 行 重新 定位 ， 它 最 终 映射 到 
sys_Iseek () 画 数 去 执行 。 


执行 代码 如 下 : 


/代码 路 径 : include/Unistd.h: 
#define SEEK_SET 0/ 表 明 从 文件 起 始 处 开始 偏 移 
#define SEEK_CUR 1// 表 明 从 文件 的 当前 读 写 位 置 处 开始 仿 移 


#define SEEK_END 2// 表 明 从 文件 的 尾 端 开始 偏 移 
/代码 路 径 : fs/read_write.c: 


int sys_Iseek (unsigned int fd,off_t offset,int origin) /调整 文件 操作 
指针 ，offset 是 人 _pos 回 文件 尾 端 偏 移 字 三 数 


{ 
struct file * file; 
int tmp; 


if (fd>=NR_OPEN||!  (file=current-> filp[fd]) ||! (file-> 
f_inode) 


||! ISLSEEKABLE (MAJOR (file->f_inode->i_dev) ) ) 
return-EBADF; 
if (file->f inode->i pipe) 


return-ESPIPE; 


switch (origin) { 

case 0: 

/以 文件 起 始 处 作为 起 点 ， 设 置 fle->f pos 
if (offset< 0) return-EINVAL; 

file- > f_pos=offset; 

break; 

case 1: 

// 将 file->f_pos 设 置 为 文件 当前 操作 位 置 

if (file- > f_pos+offset < 0) return-EINVAL; 
file- >f_pos+=offset; 

break; 

case 2: 

/以 文件 末尾 为 起 点 ， 设 置 fle- >f_pos 

if ( (tmp=file->f_inode->i_sizetoffset) <0) 
return-EINVAL; 

file- > f_pos=tmp; 


break; 


default: 


return-EINVAL ; 


return file- > f_pos; 


} 


5.6.2 ”修改 文件 


现在 ， 假 设 hello.txt 是 便 一 上 已 有 的 一 个 文 
件 ， 而 且 内 容 为 "helloworld”， 这 里 介绍 通过 
sys_read () 贺 数 、sys_write () ENaAlsys_Iseek 

O KASEH, JERIA hello.txt tF ° 


进程 的 程序 代码 如 下 : 


#include < fcntl.h > 

#include < stdio.h > 

#include < string.h > 

#define LOCATION 6 

int main (char argc,char ** argv) 
{ 


char str1[]="Linux"; 


char str2[1024]; 

int fd,size; 

memset (str2, 0, sizeof (str2) ) ; 
fd=open ("hello.txt", O_RDWR, 0644) ; 
lseek (fd,LOCATION,SEEK_SET) ; 
strcpy (str2, str1) ; 

size=read (fd,str2+5, 6) ; 

lseek (fd, LOCATION,SEEK_SET) ; 
size=write (fd,str2, strlen (str2) ) ; 
close (fd) ; 


return 0; 


这 上 段 程 序 的 意思 是 将 “Linux” 这 个 字符 串 插 入 
hello.txt 驻 件 中 了 ， 最 终 hello.txt 文 件 中 的 内 容 应 


Yee “hello,Linuxworld” ° 


fd=open ("hello.txt", O_RDWR, 0644) ; 


open () ERRCKHXTNsys_open O KAk, FJ 
开 即 将 操作 的 文件 。 


lseek (fd,LOCATION,SEEK SET) : 


Sh 


lseek () 函数 将 对 应 sys_lseek () 函数 ; 
数 中 选择 了 SEEK_SET， 表 明 要 将 文件 的 当前 操 
VEFBET MCF EY EE 98 12 A SCP Ee ita gO TI 

strcpy (str2, strl) ; 

这 一 行 是 将 “Linux” 这 个 字符 串 复 制 到 
str2[1024] 这 个 数组 的 起 始 位 置 处 。 


size=read (fd,str2+5, 6) ; 


read () 函数 将 对 应 sys_read () ENB, EH 
hello.txt 这 个 文件 的 内 容 ， 实 参 “str2+5” 表 示 要 把 
从 hello.txt 这 个 文件 读 出 来 的 内 容 复制 到 str2 这 个 
效 组 的 第 6 个 元 素 之 后 ， 相 当 于 与 Linux 这 个 字符 
串 进 行 了 拼接 ， 实 参 “6” 表 明 要 将 该 文件 的 6 个 字 
竺 读 出 ， 前 面 lseek 
(fd,LOCATION,SEEK_SET) ; 已 经 将 文件 的 当 
前 操作 指针 从 文件 的 起 始 位 置身 文件 尾 端 偏 移 了 6 
字 广 ， 所 以 此 次 读 出 的 内 容 束 应 该 是 world， 最 后 
拼接 的 结果 是 Linuxworld ° lseek 


(fd,LOCATION,SEEK SET) ; 
这 行 的 效果 和 前 面 调用 的 效果 一 样 ， 都 是 要 


将 文件 的 当前 操作 指针 从 文件 的 起 始 位 置 ， 辐 文 
件 尾 端 偏 移 6 字 方 ， 以 此 确定 文件 的 写 入 位 置 。 


size=write (fd,str2, strlen (str2) ) : 


write () KOCHA Disys_write O ŽI > Hl 
在 要 将 str2 这 个 效 组 中 的 “Linuxworld" 字 符 串 写 入 
hello.txt 文 件 中 ， 而 且 写 入 位 置 吏 是 从 文件 的 起 始 
AFL eine ADL, ERAS A Za AR 


Œ “hello,Linuxworld” ° 


实例 3: 关闭 此 文件 ， 之 后 将 其 从 文件 系统 中 


我 们 不 妨 将 5.6 太 中 的 程序 改写 ， 代 码 如 下 : 


#include < fcntl.h > 
#include < stdio.h > 
#include < string.h > 


#define LOCATION 6 


int main (char argc,char ** argv) 

{ 

char str1[]="Linux"; 

char str2[1024]; 

int fd,size; 

memset (str2, 0, sizeof (str2) ) ; 
fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 0644) ; 
lseek (fd, LOCATION,SEEK_SET) ; 
strcpy (str2, str1) ; 

size=read (fd,str2+5, 6) ; 

lseek (fd, LOCATION,SEEK_SET) ; 
size=write (fd,str2, strlen (str2) ) ; 
/关闭 文件 

close (fd) ; 

/删除 文件 

unlink ("/mnt/user/user1/user2/hello.txt") : 


return 0; 


5.7 天 闭 文 件 


关闭 文件 对 应 的 是 打开 文件 ， 古 在 close () 
函数 中 完成 的 。 


5.7.1 当前 进程 的 f 们 p 与 fle_table[64] 脱 钧 


close () 郴 数 最终 映 射 到 sys_close () 系统 
调用 函数 去 执行 。 将 当前 进程 的 task_struct 中 的 
filjp[20] 与 fe_table[64] 解 除 天 系 ， 情 景 如 图 5-13 所 


小。 
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图 5-13 当前 进程 的 科 p[20] 与 身 p_table[64] 脱 钧 


执行 代码 如 下 : 


// 代 码 路 径 : fs/open.c: 

int sys_close (unsigned int fd) 
{ 

struct file * filp; 

if (fd>=NR_OPEN) 
return-EINVAL; 


current- > close on exec&=~ (1< <fd) ; 


if (! (filp=current- > filp[fd]) ) 

return-EIN VAL; 

current- > filp[fdJ=NULL; // 将 当前 进程 filp[20] 中 的 fd 项 置 空 

if (filp-> f_count==0) 

panic ("Close: file count is 0") ; 

if (--filp->f_count) /将 包 e_table[64] 中 文件 句柄 引用 计数 递减 
return (0) ; 

iput (filp->f_inode) ; // 将 i 节点 与 fe_table[64] 脱 钓 

return (0) ; 


} 


值得 注意 的 是 ，fe_table[64] 用 来 管理 操作 系 
统 中 所 有 正在 操作 的 文件 ， 此 时 其 他 进程 可 能 
在 操作 hello.txt 文 件 ， 而 且 共用 一 本 账 (这 种 情况 
我 们 在 5.2.1 节 中 讲解 close_on_exec 字 段 时 已 经 介 
绍 ) ， 因 此 ，fp->f count 只 被 减少 了 引用 计 


数 ， 而 没有 被 简单 地 清空 。 当 然 ， 实 例 3 中 ， 没 有 
进程 操作 该 文件 ，fp->f count 将 递减 为 0， 
file_table[64] 中 的 这 个 表 项 变 成 了 空 闪 项 。 


5.7.2 SFT RRR 


MIFIT AR faze: SCE RNS 
类 属性 进行 检查 ， 对 于 实例 3， 将 会 检查 人 i 市 所 
的 内 容 已 彼 改 变 ， 因 此 ， 要 先 将 i 市 点 同步 到 指定 
Za; PAIS, PAI AAi count, (iT AY 
引用 计数 变 为 0， 这 个 im 点 在 inode_table[32] 中 的 
表 项 成 为 空 风 项。 


执行 代码 如 下 : 


/代码 路 径 : fs/open.c: 

void iput (struct m_inode * inode) /释放 文件 i 节 点 
{ 

if (! inode) 


return; 


wait _on_ inode (inode) ; Vi 节点 可 能 正在 被 使 用 ， 所 以 要 等 待 i 节 
点 解锁 


if (! inode->i_count) // 如 果 即 将 释放 的 i 节点 引用 计数 为 0 
panic ("iput: trying to free free inode") ; 


if (inode->i_pipe) {RIZ T Ree ET 


wake _up (&inode->i_wait) ; 

if (--inode->i_count) 

return; 

free _page (inode- >i size) ; 

inode- > i_count=0; 

inode- > i_dirt=0; 

inode- > i_pipe=0; 

return; 

} 

if (! inode->i_dev) {// 如 果 i 节 点 所 在 外 设 的 设备 号 为 0 
inode->i_count--; /其 引用 计数 递减 


return; 


} 


if (S_ISBLK (inode->i_mode) ) {// 如 果 i 节 点 是 块 设备 文件 的 i 
TER 


sync _dev (inode->i_zone[0]) ; /将 其 同步 到 外 设 上 
wait _on_inode (inode) ; 

} 

repeat: 

if (inode->i_count>1) {i A5 HIAR 1 
inode->i_count--; //7#2)W@#25 | H irk 

return; 

} 

if (! inode->i_nlinks) {// 如 果 i 市 点 的 链接 数 为 0 
truncate (inode) ; // 释 放 该 i 节点 对 应 的 所 有 人 逻辑 块 
free_inode (inode) ; // 释 放 该 i 节点 

return; 

} 


if (inode->i_dirt) {// 对 于 本 案例 ，i 节 点 内 容 已 经 改变 ， 同 步 该 i 
斑点 内 容 到 外 设 


write inode (inode) ; /*we can sleep-so do again*/ 
wait _on_inode (inode) ; 

goto repeat; 

} 

inode- >i_count--;，Mi 节 点 引用 计数 递 城 


return; 


5.8 ”删除 文件 


删除 文件 对 应 的 是 新 建文 件 。 删 除 文 件 与 5.7 
节 中 关闭 文件 有 所 不 同 : 关闭 文件 只 是 解除 当前 
进程 与 hello.txt 文 件 在 fle_table[64] 中 指定 挂 接点 
的 关系 ， 而 删除 操作 的 效果 表现 为 所 有 进程 都 无 
法 访问 到 hello.txt 这 个 文件 。 


小 贴 士 


在 Linux 0.11 中 ， 人 允许 利用 系统 调用 函数 
sys_link 将 “/mnt/user/zhang/chengxu.c” 的 路 径 名 指 
向 路 径 名 为 "mntyuserhello.txt” 的 文件 ， 类 似 
Windows 下 的 快捷 方式 。 这 样 可 以 允许 不 同 用 户 
建立 目 己 熟悉 的 路 径 名 和 文件 名 来 访问 他 想 访问 
的 文件 ， 而 不 是 必须 要 记 住 最 原始 的 路 径 名 。 在 i 
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(有 目录 项 ) 链接 到 一 个 文件 。 每 建立 一 个 这 样 的 
链接 ，i_nlinks 就 增加 1。 


5.8.1 ”对 文件 的 删除 条 件 进行 检查 


实例 3 中 unlink () 函数 最 终 映 射 到 sys_unlink 

O 系统 调用 函数 去 执行 。 先 获取 hello.txt 文 件 的 

i 条 成 ， 之 后 检查 i 休 扩 属性 信息 、 当 前进 程 对 该 文 
件 的 操作 权限 等 信息 ， 硝 定 该 文件 是 否 能 够 删 


除 。 
执行 代码 如 下 : 
/代码 路 径 : fs/namei.c: 


int sys_unlink (const char * name) 


{ 


const char * basename; 

int namelen; 

struct m_inode * dir, *inode; 
struct buffer_head * bh; 
struct dir_entry * de; 


if (! (dir=dir namei (name, S&namelen, &basename) ) ) // 通 


过 分 析 路 径 名 ， 找 到 将 要 删除 文件 的 枝 梢 i 节 点 
return-ENOENT; 
if (! namelen) {/ 如 果 namelen 为 0 
iput (dir) ; /释放 枝 梢 i 节 点 
return-ENOENT; 
} 


if (! permission (dir,MAY WRITE) ) {// 如 果 用 户 进 程 没 有 枝 梢 i 
万 点 对 应 目录 文件 的 写 入 权限 


iput (dir) ; DUOSI T 点 
return-EPERM; 
} 


bh=find_entry (&dir,basename,namelen, &de) ; /获得 目标 文件 
的 目录 项 


if (! bh) { 
iput (dir) ; 
return-ENOENT; 
} 


if (! (inode=iget (dir->i_dev,de->inode) ) ) {/ 获 得 要 删除 文 
件 的 i 节 点 


iput (dir) ; 

brelse (bh) ; 

return-ENOENT; 

} 

if ( (dir->i mode&S ISVTX) &&! suser () && 
current- > euid! =inode->i_uid& & 


current->euid! =dir->i_uid) {/ 如 果 用 户 进程 不 具备 删除 该 文件 
的 权限 


iput (dir) ; /释放 梳 梢 i 点 
iput (inode) ; // 释 放 目 标 文 件 i 节点 
brelse (bh) ; 


return-EPERM; 


} 

if (S_ISDIR (inode->i_mode) ) {// 如 果 目 标 文件 是 个 目录 文件 
iput (inode) ; /释放 目标 文件 证 点 

iput (dir) ; // 释 放 枝 梢 i 节点 

brelse (bh) ; 

return-EPERM; 

} 


if (! inode->i_nlinks) {// 如 果 该 i 节点 的 链接 数 为 0 (没有 任何 进 
程 与 之 存在 关联 ) ， 则 强行 置 1 


printk ("Deleting nonexistent file (%04x: %d) , %d\n", 
inode- > i_dev,inode- > i_num,inode->i_nlinks) ; 

inode- > i_nlinks=1; 

} 

/以 下 为 具体 的 文件 删除 工作 

de- > inode=0; 

bh- > b_dirt=1; 


brelse (bh) ; 


inode- > i_nlinks--; 

inode- > i_dirt=1; 

inode- > i_ctime=CURRENT_TIME;; 
iput (inode) ; 

iput (dir) ; 


return 0; 


5.8.2 ”进行 具体 的 删除 工作 


删除 hello.txt 文 件 的 情景 如 图 5-14 所 示 。 
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Kl 5-14 删除 hellotxt 文 件 


具体 执行 代码 如 下 : 


/代码 路 径 : fs/namei.c: 
int sys_unlink (const char * name) 


{ 


const char * basename; 

int namelen; 

struct m_inode * dir, *inode; 
struct buffer_head * bh; 


struct dir_entry * de; 


ee ee 


/以 下 为 具体 的 文件 删除 工作 

de->inode=0; // 将 user2 目 录 文 件 中 hello.txt 目 杂项 清空 
bh->b_dirt=1; // 将 hello.txt 目 录 项 所 在 绥 冲 块 b_dirt 置 1 
brelse (bh) ; 


inode->i_nlinks--; /目标 文 件 链接 数 递 减 ， 在 实例 3 中 ， 该 值 被 递 
减 为 0 


inode- >i_dirt=1; // 目 标 文件 i 广 点 i_dirt 置 为 1 
inode- > i_ctime=CURRENT_TIME; 

iput (inode) ; /释放 hello.txt 文 件 i 贡 点 

iput (dir) ; /释放 user2 目 录 文 件 i 节 点 


return 0; 


值得 注意 的 是 ，iput O 函数 中 执行 的 情景 与 
5.7.21 PAYA PKA ° 


执行 代码 如 下 : 


// 代 码 路 径 : fs/open.c: 


void iput (struct m_inode * inode) // 释 放 目 标 文件 i 节点 


repeat: 

if (inode->i_count>1) {Wi 节点 的 引用 计数 大 于 1 
inode- >i_count--; // 囊 减 其 引用 计数 

return; 

} 


if (! inode->i_nlinks) {// 此 时 链接 数 已 递减 为 0， 说 明 没 有 进程 
与 该 i 太 点 存在 关联 


truncate (inode) ; // 根 据 节 点 中 i_zone[9]， 释 放 文 件 在 硬盘 上 占 
据 的 逻辑 块 


free inode (inode) ; // 将 i 节点 位 图 中 对 应 的 位 清空 ， 并 将 
inode_table[32] 中 的 表 项 清空 


return; 
} 


if (inode->i_dirt) {// 对 于 本 案例 ，i 节 点 内 容 已 经 改变 ， 同 步 该 i 
节点 内 容 到 外 设 


write inode (inode) ; /*we can sleep-so do again*/ 
wait _on_inode (inode) ; 

goto repeat; 

} 

inode->i_count--; /i 节点 引用 计数 递减 

return; 


} 


调用 truncate O 男 数 ， 根 据 文件 i 太后 中 
i_zone[9] 释 放 文 件 在 外 设 上 的 所 有 逻辑 块 。 执 行 


代码 如 下 : 


/代码 路 径 : fs/open.c: 

void truncate (struct m_inode * inode) 
{ 

int 1; 


if (! (S_ISREG (inode->i_mode) ||S_ISDIR (inode-> 
i mode) ) ) /如 果 hello.txt 文 件 不 是 普通 文件 或 目录 文件 


return; /直接 返回 
for (i=0; i<7; i++) 
if (inode->i_zone[i]) { 


free block (inode->i_dev,inode->i_zone[i]) ; //Ki_zoneHi 72 
辑 块 在 逻辑 块 位 图 上 对 应 的 位 清 零 


inode- > i_zone[i]=0; 
} 


free _ind (inode->i_dev,inode->i_zone[7]) ; // 将 一 级 间接 块 自身 
占用 的 逻辑 块 以 及 它 管 理 的 逻辑 块 在 逻辑 块 位 图 上 对 应 的 位 清 零 


free _dind (inode->i_dev,inode->i_zone[8]) ; /将 二 级 间接 块 自 
刁 占 用 的 逻辑 块 以 及 它 管 理 的 逻辑 块 在 逻辑 块 位 图 上 对 应 的 位 清 零 


inode- > i_zone[7]=inode- > i_zone[8]=0; 

inode- > i_size=0; 

inode- > i_dirt=1; 

inode- > i_mtime=inode- > i_ctime=CURRENT_TIME; 


调用 free_ inode () 函数 ， 清 空 节 点 位 图 和 i 


TARRI o 


执行 代码 如 下 : 


/代码 路 径 : fs/bitmap.c: 

void free_inode (struct m_inode * inode) 
{ 

struct super_block * sb; 

struct buffer_head * bh; 


if (! inode) /如 果 i 节 点 为 空 


return ; 
if (! inode->i_dev) {// 如 果 设 备 号 为 0 
memset (inode, 0, sizeof (*inode) ) ; 
return; 


} 


if (inode->i_count> 1) {ARIT ARR] 


printk ("trying to free inode with count=%d\n", inode- > 
i count) ; 


panic ("free_inode") ; 

} 

if (inode->i_nlinks) WRIT Ad SEERA A 
panic ("trying to free inode with links") ; 


if (! (sb=get_super (inode->i_dev) ) ) // 如 果 i 节 点 所 在 文件 
系统 的 超级 块 不 存在 


panic ("trying to free inode on nonexistent device") ; 


if (inode->i num<1llinode->i_num>sb->s ninodes) // 检 查 i 节 
(=j 


i 
一 
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panic ("trying to free inode 0 or nonexistant inode") ; 


if (!  (bh=sb->s_imap[inode->i_num>>13]) ) // 如 果 该 i 节点 
对 应 的 im 点 位 图 不 存在 


panic ("nonexistent imap in superblock") : 


if (clear bit (inode->i_num&8191, bh->b data) ) // 清 空 i 节点 
MAF Shello.txt3CfFi AT AYA 


printk ("free_inode: bit already cleared.\n\r") ; 


bh->b_dirt=1; // 将 i 节点 位 图 所 在 缓冲 块 的 b_dirt 置 1 〈 表 示 需 要 同 


memset (inode, 0, sizeof (*inode) ) ; // 将 i 节点 表 中 hello.txt 文 
Fin SAF E 


} 


操作 系统 将 被 清空 的 i 节点 位 图 、 逻 辑 块 位 
图 、i 节 点 表 项 信息 ， 同 步 到 硬盘 上 (并 未 清除 对 
应 的 逻辑 块 中 的 内 容 ) 。 它 们 都 是 hello.txt 文 件 的 
管理 信息 ， 这 些 信息 不 存在 了 ， 即 便 该 文件 的 逻 
辑 块 内 容 还 存储 在 硬盘 上 ， 也 无 法 再 访问 到 该 文 
件 。 


5.9 REA 


本 章 通 过 几 个 实例 程序 ， 详 细 讲 解 了 与 文件 
操作 相关 的 代码 和 知识 。 


操作 系统 对 文件 的 一 切 操作 ， 都 可 以 分 为 两 
个 方面 : 对 super_block、d_super_block、 
m_inode ` d_inode ` iT Ai Al ` eR i Ase 
文件 管理 信息 的 操作 以 及 对 文件 数据 内 容 的 操 
作 。 新 建 、 打 开 、 关 闭 、 删 除 文件 属于 对 文件 管 
理 信息 的 操作 。 读 文件 、 写 文件 和 修改 文件 则 主 
要 是 操作 文件 数据 内 容 。 


操作 文件 管理 信息 加 是 建立 或 解除 进程 与 文 
件 的 天 系 链 条 ， 链 条 的 主干 为 task_struct 中 的 
file_table[64] 


*filp[20] inode_table[32] ° 3# 
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数据 交互 。 当 天 系 链条 解除 后 ， 进 程 则 不 再 具备 
控 作 指定 文件 的 能 力 。 如 末 文 件 管理 信息 做 更 
改 ， 则 操作 系统 要 将 此 更 改 落 实在 人 硬盘 上 ， 以 免 
失去 对 文件 数据 内 容 的 控制 。 


第 6 革 ”用户 进程 与 内 存 管理 


现代 操作 系统 的 重要 特征 束 古 文 持 实时 多 任 
务 一 一 同时 运行 多 个 程序 。 运 行 中 的 程序 被 称 为 
进程 。 在 类 UNIX 操 作 系 统 的 设计 者 看 来 ， 操 作 系 
统 的 核心 束 古 进程 。 所 请 的 操作 系统 束 古 硅 干 个 
正在 运行 、 操 作 的 进程 构成 的 系统 。 按 照 这 个 四 
路 ， 进 程 的 创建 只 可 能 由 进程 承担 ， 也 束 古 父子 
进程 创建 机 制 。 在 任何 情况 下 ， 人 至 少 得 有 一 个 进 
程 留守 ， 这 束 古 进程 0。 与 计算 机 使 用 痢 交 互 也 是 
由 专门 的 进程 ( 即 shell) 负责 。 辟 之 ， 一切 宵 为 
进程 。 


下 一 台 计 算 机 只 有 一 个 CPU、 一 个 CPU 只 有 
一 个 核 的 时 代 ， 多 个 进程 同时 运行 的 本 质 是 分 时 


轮流 运行 。 确 你 多 进程 同时 正确 运行 ， 束 必须 解 
决 两 个 天 键 问题 ， 一 个 十 如 何 防 止 多 进程 同时 运 
行 时 ， 一 个 进程 的 代码 、 数 据 不 会 个 其 他 进程 直 
接 访 问 、 窗 盖 ， 男 一 个 是 如 何 做 到 多 进程 有 序 轮 
流 执行 。 


第 一 个 问题 涉及 进程 你 护 ， 第 二 个 问题 涉及 
进程 调度 。 


6.1 ”线性 地 址 的 保护 


在 Intel IA-32 架 构 中 ， 进 程 保护 体现 在 对 进程 
内 存 空间 的 保护 ， 进 程 内 存 空 间 的 保护 古 由 线性 
地 址 保护 、 物 理 地 址 保护 实现 的 。 


现在 计算 机 基本 上 部 沿用 冯 : 诺 依 昌 体 系 。 这 
个 体系 中 ， 指 令 、 数 据 部 存储 在 同样 的 内 存 中 。 


内 存 设计 为 随机 访问 存储 器 (RAM) , thie 
可 以 在 内 存 空间 任意 读 、 写 数据 或 指令 。 在 没有 
保护 模式 之 前 ， 从 物理 内 存 的 角度 看 ， 不 同 用 户 
程序 的 代码 和 数据 没有 物理 上 的 苇 异 ， 部 由 一 连 
串 的 0、1 组 成 。 人 至 于 什么 地 方 可 以 读 写 ， 什 么 地 
方 不 可 以 读 写 ， 并 没有 明确 的 物理 限制 ， 没 有 什 
么 机 制 能 阻拦 不 同 用 户 程序 间 的 相互 干扰 。 


文 持 实 时 多 任务 首 移 过 到 的 问题 束 是 ， 如 何 
你 证 每 个 进程 在 运行 过 程 中 能 够 与 其 他 进程 互 不 
干扰 ， 也 就 是 你 证 进程 之 间 不 能 相互 访问 代码 、 
Bua, HANGER Ee me (US > BE e 


6.1.1 ”进程 线性 地 址 空间 的 格局 


Intel IA-32 CPU HNZ it AH, HÆFI PE > 
PG， 所 有 在 计算 机 中 运行 的 程序 使 用 的 只 能 是 线 
性 地 址 ， 然 后 将 线性 地 址 转换 到 具体 的 物理 地 
址 ， 转 换 是 由 CPU 中 的 MMU 根 据 页 目录 表 、 页 
表 、 页 的 设 定 ， 由 硬件 自动 实现 的 。 


线性 地 址 就 是 CPU 可 以 寻 址 的 地 址 。 在 IA-32 
体系 染 构 下 ，32 位 地 址 总 线 的 线性 地 址 空间 范围 
是 0~-4 GB。 为 了 在 线性 地 址 层面 分 隔 进程 的 内 
FEE], Linux 0.11 采 取 的 忌 体 策 略 是 将 4 GB 的 线 
性 地 址 空间 分 成 互 不 重 共 的 64 等 份 ， 每 份 64 
MB， 每 个 进程 一 份 ， 最 多 同时 开局 64 个 进程 。 要 
求 进程 无 论 雯 样 执行 ， 痢 不 能 跨越 起 点 和 终点 。 
这 样 进程 的 线性 地 址 空间 彼此 不 重合 ， 实 现在 线 
性 地 址 层面 对 进程 内 存 空间 的 保护 。 这 有 古 整个 


Linux 0.11 中 线性 地 址 空间 设计 的 最 大 格局 ， 所 有 
针对 线性 地 址 空间 方面 的 设计 都 服从 于 这 个 格 
ae 


task[64] 是 这 个 格局 的 基点 ， 所 有 进程 登记 、 
注销 都 只 由 它 统一 管理 。 每 个 进程 只 有 在 task[64] 
中 定位 后 ， 才 能 在 线性 地 址 空间 中 进行 安排 。 操 
作 系 统 根据 task[64] 的 项 号 nr 在 GDT 中 找到 对 应 的 
LDT 。task[64] 起 到 了 控制 进程 总 量 ， 天 联 进 程 与 
GDT 中 的 LDT、TSS 的 关键 作用 。 


虽然 在 操作 系统 代码 中 规划 出 了 64 等 分 4 GB 
线性 地 址 空间 的 格局 ， 但 仅 此 能 否 对 进程 跨越 64 
MB 线性 地 址 空间 的 访问 做 出 有 效 的 阻拦 ? 也 吏 是 
说， 能 人 否 确 人 进程 的 线性 地 址 空间 彼此 不 重 肝 ? 


操作 系统 内 核 虽然 做 出 了 进程 的 线性 地 址 择 
间 的 乎 局 ， 但 却 无 法 仅仅 依 午 算法、 控制 逻辑 阻 
拦 进程 的 路 界 访问 。 原 因 是 CPU 一 次 只 能 执行 一 
条 指令 ， 执 行进 程 的 指令 束 不 能 执行 内 核 的 指 
È o PA, 不论 内 核 有 多 么 党 膨 的 控制 越界 算 
法 ， 当 进程 执行 器 弄 访问 时 ， 内 核 的 控制 越 弄 算 
法 都 不 在 执行 状态 ， 无 法 欣 制 进程 的 越界 行为 。 


软件 的 方法 无 效 ， 那 只 能 依 徘 便 件 方法 。 


Intel ITA-32 台 构 专门 设计 了 基于 CPU 硬件 的 欣 
制 进 程 访问 越界 的 方法 。 


6.1.2” 段 基 址 、 段 限 长 、GDT、LDT 、 47 
权 级 


Intel IA-32 架 构 对 进程 线性 地 址 空间 的 保护 是 
ÆT EH ° 


JRE, Hee ( 子 程序 ) 链接 的 需要 ， 
发 明了 在 内 存 中 划分 段 的 方法 ， 所 有 程序 的 设计 
都 是 基于 段 的 。 线 性 地 址 空间 是 一 维 的 ， 所 以 只 
要 看 住 一 段 线性 地 址 空间 的 两 革 ， 让 程序 在 段 空 
间 里 执行 ， 别 越 弄 ， 它 束 不 会 干扰 到 其 他 段 ， 也 
驶 不 会 干扰 到 其 他 进程 。 


Intel] 早 期 的 CPU 为 了 降低 成 本 ， 只 设计 了 看 
住 段 起 始 位 置 的 段 头 寄存 磊 ， 并 没有 设计 看 住 段 


结束 位 置 的 段 尾 寄存 如 。 为 了 兼容 早期 CPU,Intel 
IA-32 架 构 在 段 (2k) 寄存 右 中 设计 了 段 限 长 ， 等 
效 于 设计 了 上 段 尾 寄存 帮 ， 用 一 个 寄存 胡 巧 妙 地 起 
到 了 两 个 寄存 器 的 作用 。 


Linux 0.11 操 作 系 统 利 用 Intel IA-32 CPU 架构 
提供 的 段 基 址 、 段 限 长 有 效 地 阻拦 了 段 内 跳 转 中 
有 意 无 意 的 越界 行为 。 比 如 ，jmp X， 如 果 这 个 X 
很 大 ， 超 过 段 限 长 ， 硬 件 会 阻止 类 似 指 令 的 执 
行 ， 并 立即 报 出 GP 错 误 。 


对 于 进程 代码 中 跨越 段 边 界 的 jmp， 段 基 
址 、 段 限 长 不 能 阻拦 ，Linux 0.11 是 用 什么 方法 拦 
截 非 法 跨越 进程 边界 的 访问 动作 的 呢 ? 


韭 法 跨越 进程 边界 有 两 种 情况 ， 一 种 是 从 一 
个 进程 非法 跨越 到 为 一 个 进程 ， 为 一 种 是 从 一 个 
进程 非法 跨越 到 内 核 。 


1. 从 一 个 进程 非法 跨越 到 男 一 个 进程 


从 一 个 进程 用 ljmp 指 令 非法 跨越 到 男 一 个 进 
程 ， 从 IA-32 架 构 的 角度 看 ， 两 个 进程 的 代码 段 都 
是 3 特权 级 ，Linux 0.11 的 所 有 进程 都 安排 在 一 个 4 
GB 的 线性 地 址 空间 ， 所 以 允许 这 个 ljmp 指 令 的 执 
行 ， 段 基 址 、 段 限 长 此 时 起 不 到 阻拦 非法 越界 的 
作用 。Linux 0.11 采 用 的 征 通过 LDT 的 设计 ， 阻 搓 
非法 jmp 指 令 的 执行 。 


第 2 章 中 讲解 了 Linux 0.11 的 GDT、LDT 的 设 
计 。64 个 进程 ， 每 个 进程 占用 GDT 的 两 项 ， 一 项 


是 TSS， 男 一 项 就 是 LDT。 所 有 进程 的 LDT 段 的 
设计 是 完全 一 样 的 ， 每 个 LDT 都 有 3 项 ， 都 是 第 一 
项 为 军 ， 第 二 项 是 进程 代码 段 ， 第 三 项 是 进程 数 
据 段 。 当 一 个 进程 的 代码 中 有 非法 的 路 进程 跳 转 
的 指令 时 ， 比 如 ，Jjmp 指 令 执行 时 ， 该 指令 后 面 
的 操作 数 是 “ 段 内 伺 移 段 选择 子 ”。 代 码 段 的 段 迁 
择 子 存储 在 CS 里 面 。 仔 细 考 察 一 下 ， 可 以 看 出 
Linux 0.11 中 所 有 进程 的 CS 的 内 容 都 是 一 样 的 ， 

用 二 进 制 表示 的 形式 都 是 0000000000001111 ° 
CPU 硬件 无 法 识别 是 哪 一 个 进程 的 CS， 也 怠 无 法 
选择 段 措 述 符 ， 只 能 默认 使 用 当前 LDT 中 提供 的 
段 拍 述 符 ， 所 以 类 似 jmp 这 样 的 段 间 跳 艾 指令， 
无 论 后 面 操作 数 怎 么 写 ， 都 无 法 跨越 当前 进程 的 
代码 段 ， 也 就 无 法 进行 段 间 跳 转 ， 最 终 只 能 是 执 


行 到 本 段 。 由 此 可 见 ，Linux 0.11 的 LDT 的 设计 看 
(hee, RXRA JE Ò ° 


试想 一 下 ， 如 果 Linux 0.11 不 是 这 样 的 设计 ， 
而 是 将 所 有 进程 的 代码 段 接 述 从 都 直接 写 到 GDT 
中 。 对 所 有 进程 共用 一 个 4 GB 线性 地 址 空间 的 
Linux 0.11 而 言 ， 进 程 代码 中 的 非法 跨越 进程 的 跳 
转 指 令 束 可 以 不 受阻 拦 地 执行 。 


按照 这 个 思路 ， 结 合 第 2 章 讲 解 的 内 容 仔 细 思 
考 ， 可 以 发 现 ，Linux 0.11 在 防止 非法 跨越 进程 的 
长 跳 转 指令 方面 ， 略 显 粗 糙 。 第 2 章 中 讲解 过 TSS 
段 、LDT 段 的 段 限 长 是 一 样 的 ， 都 是 104 B。 这 个 
段 限 长 对 TSS 来 说 是 合适 的 ， 对 LDT 来 说 束 太 长 
了 。LDT 只 有 3 项 ， 每 项 8 字 节 ， 一 共 只 有 24B。 
从 进程 0 的 INIT_TASK 可 以 看 出 LDT 后 面 紧 跟着 


TSS， 这 个 效 据 绪 构 在 父子 进程 创建 机 制 创 建 进 
程 时 会 问 后 遗传 ， 所 有 进程 时 task_struct 里 面 的 
LDT、TSS 都 是 一 样 的 。 如 末 进 程 代 码 中 有 这 样 
的 代码 : 


ljmp 偏 移 ，CS (CS 的 值 是 0000000000111111， 即 3 特权 级 ，LDT 表 
中 的 第 8 项 ) 


这 样 的 指令 仍然 会 在 段 内 执行 ， 而 从 LDT 基 
址 往 后 侦 移 到 “第 8 项 ”的 数据 和 内容 不 可 预知 ， 出 现 
的 错误 也 不 可 预知 。 但 无 论 古 哪些 蚀 误 ， 痢 无 法 
跨越 进程 的 边界 ， 也 无 法 改变 LDT。 


反 过 来 看 这 个 问题 ， 束 算 非 法 的 进程 跨越 的 
长 跳 转 指 令 能 够 执行 ， 也 只 是 代码 跳 转 过 去 ， 数 
据 段 、 栈 段 都 没 跟 春 变 换 过 去 。 代 码 在 一 个 进程 


的 段 中 执行 ， 数 据 和 栈 却 在 为 一 个 进程 中 ， 在 这 
种 条 件 下 ， 代 人 码 通常 会 执行 死 了 。 从 这 个 反问 和 角 
度 ， 我 们 可 以 更 深刻 地 领悟 到 为 什么 正音 的 进程 
切换 ， 是 用 TSS 将 代码 段 、 数 据 段 、 栈 全 部 变换 
过 去 的 。 要 想 进行 正确 的 进程 切换 ， 必 须 将 进程 
的 执行 状态 成 套 、 完 整地 保存 ， 并 成 套 、 完 整地 
切换 到 男 一 个 进程 。 


以 上 讲解 的 是 用 jjmp 从 一 个 进程 非法 跨越 到 
为 一 个 进程 的 情况 ， 下 面 讨论 用 ljjmp 从 一 个 进程 
非法 跨越 到 内 核 的 情况 。 

2. 从 一 个 进程 非法 跨越 到 内 核 


用 户 进程 代码 段 的 特权 级 都 是 3， 内 核 的 特权 
级 是 0，Intel IA-32 架 构 禁 止 代码 跨越 特权 级 长 跳 


加，3 特 权 级 长 跳 转 到 0 符 权 级 是 茶 止 的 ，0 符 权 级 
长 跳 较 到 3 符 权 级 同样 古 蔡 止 的 。 所 以 这 样 的 非法 
长 跳 转 指令 会 叙 CPU 人 硬件 有 效 阻拦 ， 进 程 与 内 核 
的 边界 得 到 有 效 的 保护 。0 特 权 级 的 内 核 代码 可 以 
访问 3 特权 级 的 进程 数据 ，3 特 权 级 的 进程 代码 不 
能 访 则 0 特权 级 的 进程 代码 。 这 些 蔡 止 都 是 非常 刚 
性 的 人 硬件 禁止 。 


从 上 面 的 讲解 可 以 看 出 ，Linux 对 GDT、LDT 
的 设置 ， 有 效 地 阻止 了 非法 跨越 进程 边界 的 访 
问 。 用 户 进程 是 否 可 以 设置 GDT、LDT， 以 使 自 
己 写 的 非法 跨越 边界 的 指令 能 够 执行 ? SREB 
定 的 ， 因 为 Linux 0.11 将 GDT、LDT 这 两 个 数据 结 
构 设 置 在 内 核 数 据 区 ， 是 0 特权 级 的 ， 只 有 0 特权 
级 的 代码 才能 修改 设置 GDT、LDT ° 


那么 ， 用 户 进 程 是 否 可 以 在 目 己 的 数据 段 按 
照 自己 的 意愿 重新 做 一 套 GDT、LDT 呢 ? 如 果 仅 
仅 是 形式 上 做 一 套 和 GDT、LDT 一 样 的 数据 结 
构 ， 没 有 什么 不 可 以 ， 但 起 不 到 真正 的 GDT、 
LDT 有 的 作用 。 真 正 起 作用 的 GDT、LDT 是 CPU 借 
件 认 定 的 。 这 两 个 数据 结构 的 首 地 址 必须 挂 接 在 
CPU 中 的 GDTR、LDTR 上 ， 运 行 时 ，CPU 只 认 
GDTR、LDTR 指 癌 的 数据 结构 ， 其 他 数据 结构 束 
算 起 名 字 叫 GDT、LDTCPU 也 一 概 不 认 。Linux 
0.11 内 核 在 进程 的 初始 化 阶段 ， 就 将 GDT、LDT 
挂 接 到 了 CPU 中 的 GDTR、LDTR 上 了 。 


用 户 进程 能 否 也 将 目 己 制作 的 GDT ` LDTF 
接 到 GDTR、LDTR 上? 答案 是 否定 的 ， 因 为 对 


GDTR、LDTR 进 行 设置 的 指令 LGDT、LLDT 只 能 
在 0 特权 级 下 执行 。 


到 此 为 止 ， 我们 可 以 看 清 苞 Linux 操 作 系 统 依 
托 Intel IA-32 染 构 设 计 的 段 基 址 、 段 限 长 、GDT、 
LDT、 特 权 级 这 一 整套 硬件 保护 机 制 ， 在 线性 地 
址 层面 建立 了 牢固 的 进程 间 、 进 程 邱 内 核 间 的 边 
界 ， 有 有 效 地 防止 了 非法 跨越 边界 的 操作 。 


进程 间 合 理 的 跨越 边界 的 数据 沟通 如 何 解 
决 ? 进程 癌 切换 及 进程 需要 跨越 边界 获得 操作 系 
统 内 核 合 理 的 文 择 应 该 如 何 操作 呢 ? 


第 一 个 问题 ， 将 在 第 8 章 中 讲解 。 


第 二 个 问题 ， 涉 及 TSS 及 CPU 硬件 的 中 断 


Linux 0.11 中 的 进程 间 切 换 是 在 schedule () 
中 完成 的 ， 其 技术 路 线 很 像 任务 门 (但 没有 用 任 
务 门 ) ， 是 在 0 特权 级 下 ， 用 ]jjmp 指 令 直 接 跳 转 到 
要 切换 的 进程 的 TSS (指令 跳 转 到 数据 ， 似 乎 有 
些 奇 怪 ， 实 际 上 后 面 有 CPU 便 件 做 了 大 量 的 工 
作 ， 最 终 跳 转 到 目标 进程 的 代码 段 ) ， 实 现 进程 
切换 的 。 


进程 要 想 获得 内 核 的 文 持 〈 如 读 盘 ) ，Intel 
IA-32 久 构 所 供 了 中 断 门 技术 ， 文 择 由 3 特权 级 代 
码 段 翻转 到 0 特权 级 代码 段 执行 。 注 意 ， 这 个 翻转 
不 是 普通 的 跳 转 ， 需 要 经 过 CPU 的 硬件 中 断 机 
制 ， 不 同 于 平坦 的 、 普 通 的 内 存 寻 址 跳 团 。 获 得 
内 核 的 文 持 后 ， 再 由 iret 指 令 经 过 CPU 硬件 ， 从 0 


符 权 级 的 内 核 代 码 段 翻转 到 3 特权 级 的 进程 代码 段 
继续 执行 。 


6.2 分 页 


6.2.1 ”线性 地 址 映射 到 物理 地 址 


前 面 我 们 介绍 了 线性 地 址 ， 线 性 地 址 最 终 要 
转换 为 物理 地 址 。Linux 0.11 在 怠速 前 打开 了 
PG， 线 性 地 址 是 通过 页 目录 表 一 一 页 表 一 一 页 面 
三 级 映射 模式 ， 最 终 沙 实 到 物理 地 址 的 。 代 码 如 
下 : 


/代码 路 径 : boot/head.s: 

xorl %eax, %eax/*pg_dir is at Ox0000*/ 
movl %eax, %cr3/*cr3-page directory start*/ 
movl %cr0, %eax 


orl $0x80000000, %eax 


movl %eax, %cr0/*set paging (PG) bit*/// 设 置 CR0， 打 开 PG 
ret/*this also flushes prefetch-queue*/ 


通过 第 1 章 的 介绍 我 们 得 知 ， 在 打开 PG 前 ， 
已 经 打开 了 PE， 转 入 保护 模式 运行 。CPU 的 硬件 
默认 ， 在 保护 模式 下 ， 如 果 没 有 打开 PG， 线 性 地 
址 恒 等 映 射 到 物理 地 址 ;如 采 打 开 了 PG， 则 线性 
地 址 需要 通过 MMU 进 行 解 机 ， 以 页 目 孙 表 、 页 
表 、 页 面 的 三 级 映 姻 模式 映射 到 物理 地 址 。 


保护 模式 下 ， 是 否 打开 PG 对 线性 地 址 映射 到 
物理 地 址 的 影响 如 图 6-1 所 示 。 


线性 地 址 


不 打开 PG N 打开 PG 


MMU | 


物理 地 址 


图 6-1 PG 影响 映射 的 情景 


Linux 0.11 为 什么 要 打开 PG 呢 ? 6.1 世 我 们 已 
经 介绍 过 ，IA-32 体 系 下 ， 线 性 地 址 空间 范围 是 0 
~4GB， 已 经 被 64 个 进程 平分 了 ， 各 目 64 MB 。 
如 果 不 打 开 PG， 根 据 CPU 默 认 的 规则 ， 线 性 地 址 
就 只 能 直接 映射 到 物理 地 址 ， 而 Linux 0.11 最 大 只 
能 文 持 16 MB 的 物理 内 存 ， 显 然 绝 大 部 分 线性 地 
址 空间 都 作废 了 ， 无 法 文 持 多 进程 同时 执行 ， 所 


以 要 打开 PG， 将 进程 的 线性 地 址 ， 根 据 物理 内 存 
的 实际 承载 能 力 ， 有 秩序 地 映射 到 物理 地 址 上 ， 
以 此 文 持 多 进程 执行 。 

线性 地 址 映射 到 物理 地 址 的 过 程 是 这 样 的 : 
每 个 线性 地 址 值 是 32 位 ，MMU 按 照 10 一 10 一 12 的 
长 度 ， 来 识别 线性 地 址 值 ， 并 分 别 将 其 解析 为 页 
BRIS ` ARMS ` A ts, BR BRT 
物理 地 址 。 这 个 过 程 的 示意 图 如 图 6-2 所 示 。 
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Al 6-2 TASH > TFS > HUTA Te R 


Linux 0.11 中 只 有 一 个 页 目录 表 ，CR3 中 和 存储 
看 页 目录 表 的 基 址 ， 这 样 MMU 解 析 线 性 地 址 时 ， 
移 找 CR3 中 的 信息 ， 这 样 珑 可 以 找到 页 目 永 表 。 
只 有 找到 了 页 目 永 表 ， 才 会 有 下 面 的 解 林 ， 所 以 
在 打开 PG 前 ， 最 重要 的 事情 是 要 把 页 目 孙 表 的 基 
址 载 入 CR3。 代 码 如 下 : 


/代码 路 径 : boot/head.s: 

stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


xorl %eax, %eax/*pg_dir is at Ox0000*/ 


movl %eax, %cr3/*cr3-page directory start*/// 将 页 目录 表 的 基 址 0 
载 入 CR3 


movl %cr0, %eax 


orl $0x80000000, %eax 


movl %eax, %cr0/*set paging (PG) bit*/// 设 置 CR0， 打 开 PG 
ret/*this also flushes prefetch-queue*/ 


通过 解析 线性 地 址 值 中 表示 页 目录 项 的 10 位 
AGE, Win AEN H REPRE HRM o H 
KME HWRE RRHH, BY AREE 
到 页 表 的 位 置 ， 再 通过 解析 线性 地 址 值 中 表示 页 
表 项 的 10 位 数据 找到 页 表 项 。 同 样 ， 页 表 项 中 记 
录 着 表示 页 面 的 物理 地 址 值 ， 可 以 据 此 找到 页 面 
的 位 置 ， 之 后 再 分 析 线 性 地 址 值 中 表示 页 内 侦 移 
的 12 位 物理 地 址 值 ， 最 终 就 找到 了 物理 地 址 。 


页 目 邓 表 、 页 表 、 页 面 的 三 级 映 喘 关系 是 由 
内 核 建 立 的 。 内 核 建 立 映 射 天 系 时 ， 可 以 让 不 同 
的 线性 地 址 映 姻 到 不 同 的 物理 地 址 ， 也 可 以 映射 


到 相同 的 物理 地 址 。 下 面 我 们 先 以 进程 执行 时 分 
页 为 例 ， 介 绍 不 同 的 线性 地 址 映 喘 到 不 同 的 物理 
地 址 的 情况 。 


6.2.2 ”进程 执行 时 分 页 


分 页 以 及 映 届 物理 页 面 时 ， 内 核 需 要 做 到 以 
PIU A 


1) 只 能 从 空 几 页 面 中 分 配 新 页 面 ， 不 能 分 配 
其 他 进程 正在 使 用 的 页 面 ， 干 扰 其 他 进程 的 执 
行 ， 更 不 能 将 内 核 区 域 的 页 面 挪 作 他 用 。 


从 第 2 章 的 介绍 我 们 得 知 ， 忌 速 前 内 核 通 过 
mem_map 结 构 对 1 MB 以 上 的 内 存 空间 进行 分 页 管 
理 ， 而 且 主 内 存 中 每 个 页 面 的 引用 计数 部 侯 初始 
化 为 0， 即 默认 为 空 几 页 面 。 代 码 如 下 : 


/代码 路 径 : mm/memory.c: 


ee 


val 


#define LOW_MEM 0x100000//1 MB 
#define PAGING MEMORY (15*1024*1024) 


#define PAGING PAGES (PAGING MEMORY > >12) /页 面 数 


#define MAP_NR (addr) ( ( (addr) -LOW_MEM) > > 12) 
#define USED 100 

void mem_init (long start_mem,long end_mem) 
{ 

int 1; 

HIGH MEMORY=end mem:; 

for (i=0; i<PAGING_PAGES; i++) 

mem _map[i]=USED; 

i=MAP_NR (start mem) ; 

end _mem-=start_mem; 

end mem> >=12; 


while (end_mem-->0) /能 够 占用 的 页 面 ， 引 用 计数 设置 为 0 


mem _mapli++]=0; 


} 


为 进程 实际 分 配 页 面 时 ， 只 在 mem_map 的 控 
制 儿 围 内 操作 ， 而 且 只 选择 引用 计数 为 0 的 页 面 。 
如 采 申 请 到 ， 融 将 引用 计数 置 1， 防 止 挪 作 他 用 ， 
引起 混乱 。 代 码 如 下 : 


// 代 码 路 径 : mm/memory.c: 


#define PAGING_MEMORY (15*1024*1024) //1 MB 以 下 的 不 进 
行 分 页 管理 


#define MAP_NR (addr) ( ( (addr) -LOW_MEM) > >12) 
unsigned long get_free_page (void) 


{ 


register unsigned long__res asm ("ax") ; 

__asm_ ("std; repne; scasbnt'"V/ 只 选择 引用 计数 为 0 的 页 面 
"jne 1f\n\t" 

"movb$1, 1 (%%edi) \n\t"// 申 请 后 ，3 引 用 计数 置 为 1 
"sall$12, %%ecx\n\t" 


"addl%2, %%ecx\n\t" 


: "o" (0) , "i" (LOW MEM) , "c" (PAGING PAGES) , 


"D" (mem_map+PAGING_PAGES-1) /在 mem_map] 的 管理 范 
内 查找 空间 页 


: "di", "cx" , "dx") ; 


return _ res; 


如 琳 分 配 不 到 页 面 ， 要 强行 干预 ， 终 止 程序 
继续 执行 。 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


ee ee 


struct task_struct * p; 
int i; 
struct file * f; 


p= (struct task_struct *) get_free_page () ; /为 进程 task_struct 和 
内 核 栈 分 配 空间 页 面 


if C p) /如 果 分 配 不 到 页 面 ， 就 返回 错误 信息 ， 终 止 程序 执行 


return-EAGAIN; 


task[nr]=p; 
*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 


int copy_page_tables (unsigned long from,unsigned long to,long 
size 


{ 

unsigned long * from_page_table; 
unsigned long * to_page_table; 
unsigned long this_page; 

unsigned long * from_dir, *to_dir; 


unsigned long nr; 


if (! (1&*from_dir) ) 
continue; 


from _page_table= (unsigned long *)  (Oxfffff000&*from_dir) ; 


if (! (to_page_table= (unsigned long *) get_free_page () ) ) // 
Wy ill TS A Ze PA OT 


return-1; /*Out of memory,see freeing*// 如 果 申 请 不 到 ， 返 回 -1， 
终止 程序 执行 


*to_dir= ( (unsigned long) to_page table) |7; 


nr= (from==0) ?0xA0: 1024; 


ee ee 


if (share_page (tmp) ) 


return; 


if (! (page=get free page () ) ) /为 进程 加 载 程序 申请 空闲 页 


oom () ; /如 果 申 请 不 到 ， 就 强行 让 进程 退出 
/*remember that 1 block is used for header*/ 
block=1+tmp/BLOCK_SIZE; 


for (i=0; i<4; block++, i++) 


nr[iJ=bmap (current- > executable,block) : 


ee ee 


static inline volatile void oom (void) 
{ 

printk ("out of memory\n\r") ; 

do _exit (SIGSEGV) ; /进程 退出 
} 


#define PAGING_MEMORY (15*1024*1024) //1 MB 以 下 的 不 进 
行 分 页 管理 


#define MAP_NR (addr) ( ( (addr) -LOW_MEM) > >12) 
unsigned long get_free_page (void) 

{ 

register unsigned long__res asm ("ax") ; 


asm__ ("std; repne; scasb\n\t" 


"jne 1f\n\t" 


ee 


"o" (0) , "i" (LOW_MEM) , "c" (PAGING PAGES) , 


"D" (mem_map+PAGING PAGES-1) // 在 mem_map[] 的 管理 范围 
HERA SDN 


"di" "cx" "dx") P 
return _ res; 


} 


2) 要 明确 什么 时 候 该 为 进程 狐 申 请 页 面 ， 什 
么 时 候 不 该 申请 。 


通过 第 1 草 的 介绍 我 们 得 知 ， 每 个 页 目录 项 和 
页 表 项 的 最 后 3 位 ， 标 志春 其 所 管理 的 页 面 的 属性 
(一 个 页 表 本 身 也 占用 一 个 页 面 ) ， 它 们 分 别 是 


U/S、R/W 和 P。 判 断 是 否 该 申请 页 面 ， 是 在 解析 
线性 地 址 时 确定 的 ， 关 键 要 看 P 这 个 标志 位 。 


一 个 页 目录 项 或 一 个 页 表 项 ， 如 果 和 一 个 页 
面 建 六 了 映射 天 系 ，P 标 志 束 设置 为 1;， 如 果 没 建 
立 映 射 天 系 ， 该 标志 就 是 0。 进程 执行 时 ， 线 性 地 
址 值 都 会 外 MMU 解 析 。 如 果 人 解析 出 某 个 表 项 的 P 
位 为 0， 说 明 该 表 项 没有 对 应 页 面 ， 残 会 产生 缺 页 
中 断 。 前 面 我 们 所 说 的 缺 页 中 断 ， 丈 是 这 样 产生 
的 。 如 有 果 P 位 为 1， 豆 说明 该 表 项 对 应 着 具体 的 页 
面 ， 直 接 根据 表 项 中 记录 的 地 址 值 找到 具体 的 页 
面 。 所 以 ， 这 一 位 非常 重要 ， 设 计 痢 在 设计 内 核 
有 时， 始终 都 要 保证 这 一 位 的 信息 明确 ， 绝 对 不 能 
出 现 坪 圾 值 。 因 为 垃圾 值 就 等 于 错误 。 


AAD AY, Wiest H REMAN 
表 全 部 清 零 ， 然 后 把 P 位 设置 为 1。 代 码 如 下 : 


/代码 路 径 : boot/head.s: 

setup _paging: /严格 的 清 零 操作 

movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, %eax 

xorl %edi, %edi/*pg_dir is at Ox000*/ 

cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dir+4/*--------- A eae */ 
movl $pg2+7, _pg_dir+8/*--------- is Reena */ 
movl $pg3+7, _pg_dir+12/*--------- Ws nnd */ 


movl $pg3+4092, %edi 
movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 


std 


1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 
jge 1b 


ee 


7 的 二 进 制 形式 是 111，P 被 设置 为 1 了 。 


创建 进程 的 时 候 ， 会 申请 页 面 。 只 要 调用 
get_free_page () 函数 ， 束 要 把 内 存 清 稚 ， 因 为 
无 法 预知 这 页 内 存 的 用 途 。 如 采 征 用 作 页 表 ， 不 
IBS PLA DE, Wiebke ° (MEU F: 


/代码 路 径 : mm/memory.c: 


unsigned long get_free_page (void) 


"leal 4092 (%%edx) , %%edi\n\t" 


"rep; stosl\n\t'"V/ 页 面 清 零 


ee ee 


复制 页 表 时 ， 束 得 建立 映射 关系 。 天 系 建 立 
后 ， 束 把 P 位 设置 为 1° 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long 
size 


ee ee 


from _page_table= (unsigned long *)  (Oxfffff000&*from_dir) ; 
if (! (to_page_table= (unsigned long *) get free page () ) ) 


return-1; /*Out of memory,see freeing*/ 


*to_dir= ( (unsigned long) to_page_table) |7; /页 目录 项 的 P 位 被 
设置 为 1 


nr= (from==0) ?0xA0: 1024; 


for (; nr-->0; from_page_table++, to_page_table++) { 
this _page=*from_page_table; 
if (! (1&this_page) ) 


continue; 


this _page&=~2; /页 表 项 中 的 P 位 被 设置 为 1， 一 2 的 二 进 制 形式 
为 101 


*to_page_table=this_page; 
if (this_page>LOW_MEM) { 
*from_page_table=this_page; 


ee ee 


页 表 和 页 面 的 天 系 解除 后 ， 页 表 项 丈 要 清 
F o HARUN RR KAS, WAR 
清 零 ， 这 样 吏 等 于 把 对 应 的 页 雪 项 、 页 目 永 项 的 P 
清 堆 了。 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


int free_page_tables (unsigned long from,unsigned long size) 


ee 


if (1&*pg table) 

free _page (Oxfffff000&*pg table) ; 
*pg table=0; /页 表 项 清 零 

pg _table++; 

} 

free _page (Oxfffff000S<*dir) ; 


*dir=0; // 页 目录 项 清 零 


比如 在 进程 加 载 程序 阶段 ， 就 调用 了 
free_page_tables () 函数 把 对 应 的 页 表 项 、 页 目 


录 项 的 P 清 零 了 ， 这 样 ， 当 前 进程 线性 地 址 对 应 的 
页 面 不 存在 ， 进 程 开 始 执行 程序 时 ， 必 产生 缺 页 
中 断 。 


进程 加 载 程序 后 ， 与 新 页 面 建 立 了 映射 关 
系 ，P 位 被 设置 成 1， 代 但 如 下 : 


/代码 路 径 : mm/memory.c: 


unsigned long put_page (unsigned long page,unsigned long address) 


if ( (*page table) &1) 

page _table= (unsigned long *)  (Oxfffff000&*page_table) ; 
else{ 

if (! (tmp=get free page () ) ) 


return 0; 


*page_table=tmp|7; // 页 目录 项 的 P 位 被 设置 为 1 


page _table= (unsigned long *) tmp; 


} 


page _table[ (address> >12) S&Ox3ff]=page|7; // 页 表 项 中 的 P 位 
被 设置 为 1 


ee 


3) 为 进程 新 申请 的 页 面 要 映射 到 该 进程 的 线 
性 地 址 空间 内 。 


Linux 0.11 把 分 页 的 基础 建立 在 分 段 的 基础 
上 。 进程 的 线性 地 址 空间 只 要 被 限定 住 ， 彼 
此 不 干扰 ， 那 么 分 页 时 残 不 会 出 现 混 乱 。 前 面 已 
经 介绍 过 进程 线性 地 址 空间 的 总 体格 局 ， 将 IA-32 
体系 下 的 4 GB 线性 地 址 空间 分 为 64 等 份 ， 每 个 进 
程 一 份 ， 彼 此 不 干扰 ， 页 目 孙 表 的 设计 完全 遵照 
这 个 格局 。Linux 0.11 的 页 目录 表 只 有 一 个 ， 一 个 


页 目录 表 可 以 掌控 1024 个 页 表 ， 一 个 页 表 掌 控 
1024 个 页 面 ， 一 个 页 面 4KB， 这 样 一 个 页 目录 表 
就 可 以 掌控 1024x1024x4 KB=4 GB 大 小 的 内 存 空 
间 。 把 一 个 页 目录 表 64 等 分 ， 每 个 进程 可 以 占用 
16 个 页 目录 项 ， 掌 控 16 个 页 表 ， 即 占用 64 MB 的 
物理 页 面 。 这 使 得 为 每 个 进程 分 的 页 面 ， 都 可 以 
映射 到 不 同 的 页 表 项 上 ， 页 表 也 映射 到 不 同 的 页 
目录 项 上 ，MMU 解 析 任 何 进程 的 线性 地 址 时 ， 最 
终 都 可 以 了 映 射 到 不 同 的 物理 地 址 。 当 然 ， 出 于 共 
享 页 面 的 需要 ， 不 同 的 线性 地 址 是 允许 映射 到 相 
同 的 页 面 的 ， 但 那 只 不 过 是 实际 应 用 的 需求 ， 是 
一 种 策略 。 页 目录 表 、 页 表 、 页 面 这 套 上 映射 模式 
足以 文 持 唯一 的 页 面 映 喘 到 唯一 进程 隐 线 性 地 址 
空间 。 


下 面 我 们 介绍 共 至 页 面 的 问题 。 


为 进程 分 页 时 ， 每 个 进程 的 页 面 都 会 映射 到 
进程 目 己 的 线性 地 址 空间 内 ， 这 样 进 程 执行 起 来 
彼此 不 会 干扰 。 但 在 有 些 情 况 下 ， 进 程 需要 共 孕 
页 面 ， 比 如 父子 进程 需要 共 吾 页 面 。 最 明显 的 例 
子 就 是 进程 1 创建 进程 2 后 ， 进 程 2 加 载 shell 前 ， 都 
和 进程 1 共用 代码 ， 如 下 所 示 : 


/代码 路 径 : init/main.c: 


void init (void) 


if (! (pid=fork () ) ) { 
close (0) ; 1/ 这些 代码 都 是 和 进程 共用 的 


if (open ("/etc/rc", O_RDONLY, 0) ) 


_exit (1) ; 

execve ("/bin/sh", argv_rc,envp_rc) ; 
_exit (2) ; 

} 

if (pid>0) 


while (pid! =wait (&i) ) 


TERY Se SPATE Rie, SERIE SCA , 
先 沿用 看 父 进 程 的 代码 ， 父 进程 有 多 少 页 面 ， 于 
进程 束 共 至 多 少 ， 将 来 子 进程 加 载 了 目 己 的 程 
序 ， 再 重新 映射 。 这 束 引 出 了 一 个 问题 ， 多 进程 
操作 同一 个 页 面 ， 有 读 有 写 ， 这 相当 于 给 进程 的 
封闭 环境 开 了 口子 。 为 此 ， 需 要 另 想 办 法 把 这 个 
HFE ° 


Linux 0.11 用 页 表 中 的 U/S、R/W 两 个 位 将 这 
个 口子 堵 住 了 。 


先 介绍 U/S 人 位。 如果 U/S 位 设置 为 0， 表 示 段 
特权 级 为 3 的 程序 不 可 以 访问 该 页 面 ， 其 他 特权 级 
都 可 以 ; 如果 被 设置 为 1， 表 示 包 括 段 特权 级 为 3 
在 内 的 所 有 程序 都 可 以 访问 该 页 面 。 它 的 作用 就 
是 看 死 用 户 进程 ， 阻 止 内 核 才 能 访问 的 页 面 被 用 
户 进程 使 用 。 当 然 ，Linux 0.11 中 的 保护 ， 更 偏重 
TEM? 


在 已 速 前 为 内 核 分 页 的 时 候 ，U/S 位 被 设置 为 
1， 代 码 如 下 : 


// 代 码 路 径 : boot/head.s: 


setup _paging: 


movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, %eax 

xorl %edi, %edi/*pg_dir is at OxO00*/ 

cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dir+4/*--------- LL ae ae */ 
movl $pg2+7, _pg_dir+8/*--------- de */ 
movl $pg3+7, _pg_dir+12/*--------- Uae he */ 


movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


ee ee 


代码 中 7 的 二 进 制 形式 是 111， 说 明 U/S 位 被 设 
置 为 1。 


创建 进程 的 时 候 ， 子 进程 页 目录 项 和 页 表 项 
中 的 U/S 位 都 被 设置 为 1， 代 码 如 下 : 


/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long 
size 


ee ee 


from _page_table= (unsigned long *) (Oxfffff000&*from dir) ; 
if (! (to_page_table= (unsigned long *) get free page () ) ) 
return-1; /*Out of memory,see freeing*/ 


*to_dir= ( (unsigned long) to_page_table) |7; /页 目录 项 的 U/S 位 
被 设置 为 1 


nr= (from==0) ?0xA0: 1024; 


for (; nr-->0; from_page_table++, to_page_table++) { 


this _page=*from_page_table; 
if (! (1&this_page) ) 
continue; 


this_page&=~2; /页 表 项 中 的 U/S 位 被 设置 为 |， 一 2 的 二 进 制 形 
式 为 101 


*to_page_table=this_page; 
if (this page>LOW MEM) { 
*from_page_table=this_page; 


进程 执行 时 ， 为 进程 新 申请 页 面 ， 并 把 页 面 
映射 到 进程 的 线性 地 址 空间 ， 这 会 将 页 面 对 应 的 
页 表 项 的 U/S 位 设置 为 1。 如 果 是 新 申请 的 页 表 ， 
也 会 将 对 应 的 页 目录 项 U/S 位 设置 为 1° 代码 如 
F: 


/代码 路 径 : mm/memory.c: 


unsigned long put_page (unsigned long page,unsigned long address) 


ee ee 


if ( (*page_table) &1) 

page _table= (unsigned long *)  (Oxfffff000&*page table) ; 
else{ 

if (! (tmp=get free page () ) ) 

return 0; 

*page_table=tmp|7; /页 目录 项 的 U/S 位 被 设置 为 1 

page _table= (unsigned long *) tmp; 

} 


page _table[ (address> >12) S&Ox3ff]=page|7; /页 表 项 中 的 U/S 
位 被 设置 为 1 


下 面 介 绍 RAW 人 位。 如果 它 被 设置 为 0， 说 明 页 
面 只 能 读 不 能 写 ， 如 果 设 置 为 1， 说 明 可 读 可 写 。 


进程 是 可 以 共 至 页 面 的 ， 这 样 会 市 来 问题 ， 
如 琳 多 个 进程 往 一 个 页 面 里 面 写 数据 ， 那 么 这 
页 面 束 会 出 现 滥 乱 。 所 以 需要 保护 ，R/W 位 整 提 
供 了 这 种 保护。 


创建 进程 的 时 候 ， 父 子 进 程 共 孚 页 面 。 这 些 
共 至 的 页 面 束 不 能 写 入 数据 了 ，R/W 位 设置 为 0， 
代码 如 下 : 


/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long 
size 


ee 


this _page=*from_page_table; 
if (! (1&this_page) ) 
continue; 


this_page&=~2; /页 表 项 中 的 RMW 位 被 设置 为 0， 一 2 的 二 进 制 
形式 为 101 


*to_page_table=this_page; 
if (this page>LOW MEM) { 
*from_page_table=this_page; 


ee 


再 有 ， 没 有 父子 关系 的 两 个 进程 也 可 以 共享 
页 面 ， 不 用 另行 加 载 ， 这 时 候 也 要 把 RAW 位 设置 
为 0， 禁 止 写 入 数据 。 代 码 如 下 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


ee 


if (! current- > executablelltmp >=current->end_data) { 
get _empty_page (address) ; 

return; 

} 

if (share_page (tmp) ) 

return; 

if (! (page=get free page () ) ) 

oom () ; 


ee 


ee 


if ( (*p) ->executable! =current-> executable) 


continue; 


if (try_to_share (address, *p) ) 


return 1; 


return 0; 
} 


static int try_to_share (unsigned long address,struct task_struct * 
p) /检测 是 否 可 以 共享 页 面 


to& =0xfffff000; 

to_page=to+ ( (address> >10) S&Oxffc) ; 

if (1&* (unsigned long *) to_page) 

panic ("try_to_share: to_page already exists") ; 
/*share them: write-protect*/ 


* (unsigned long *) from_page&=~2; // 页 表 项 中 的 RW 位 被 设 
置 为 0， 人 一 2 的 二 进 制 形式 为 101 


* (unsigned long *) to_page=* (unsigned long *) from_page; 


invalidate () ; 


通过 上 述 介 绍 不 难 发 现 ， 进 程 共享 的 页 面 ， 
只 可 能 有 两 种 操作 ， 要 么 读 ， 要 么 写 。 读 不 会 引 
起 数据 混乱 ， 可 以 随便 读 。 如 果 是 写 ， 就 可 能 引 
起 混乱 ， 需 要 禁止 。 而 对 于 写 入 的 需求 ，Linux 
0.11 和 采取 了 一 套 写 时 复制 的 策略 来 解决 ， 即 把 要 
写 入 数据 的 页 面 再 复制 一 份 给 进程 ， 两 个 进程 各 
有 一 份 ， 各 写 各 的 页 面 ， 这 样 就 不 会 产生 混乱 。 
我 们 将 在 本 章 最 后 一 六， 用 一 个 操作 实例 来 讲解 
写 时 复制 机 制 。 


Linux 0.11 中 确 有 像 管 道 这 样 的 需求 ， 两 个 进 
程 在 同一 页 面 内 又 读 又 写 。 我 们 将 在 第 8 章 中 详细 
介绍 如 何 祭 证 进程 操作 管道 时 不 产生 数据 混乱 。 


进入 保护 模式 后 ， 内 核 完 给 目 己 分 页 。 分 页 
是 建立 在 线性 地 址 空间 基础 上 的 。 前 面 一 节 我 们 
介绍 过 ， 内 核 的 段 基 址 是 0， 代 码 段 和 数据 段 的 段 
限 长 都 是 16 MB。 每 个 页 面 大 小 为 4KB， 每 个 页 
表 可 以 管理 1024 个 页 面 ， 每 个 页 目 永 表 可 以 管理 
1024 个 页 表 。 有 既然 确定 了 段 限 长 是 16 MB， 这 样 
就 需要 4 个 页 目录 项 下 辖 4 个 页 表 ， 来 管理 这 16 
MB 的 内 存 ， 设 置 的 代码 如 下 : 


/代码 路 径 : boot/head.s: 
setup _ paging: 


movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 


xorl %eax, Y%eax 
xorl %edi, %edi/*pg_dir is at OxO000*/ 
cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dir+4/*--------- eee */ 
movl $pg2+7, _pg_dir+8/*--------- ES eed */ 
movl $pg3+7, _pg_dir+12/*--------- Uae he */ 


movl $pg3+4092, %edi 

movl $0xfff007, %eax/*16Mb-4096+7 (r/w user,p) */ 
std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


ee ee 


设置 后 对 内 存 的 管控 情景 如 图 6-3 所 示 。 


IT | [| T ] 1 个 页 目录 表 和 4 个 页 表 
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4 MB 8 MB 12 MB 16 MB 


内 核 控 制 线 性 地 址 0 一 16MB 的 空间 , 也 是 物理 地 址 的 0 一 16MB 的 空间 


6-3 内存 分 页 的 情景 


从 图 6-3 中 不 难 发 现 ， 内 核 的 线性 地 址 等 于 物 
理 地 址 。 这 样 做 的 目的 和 是， 内核 可 以 对 内 存 中 的 
所 有 进程 的 内 存 区 域 任意 访问 。 


可 见得 等 映 冉 模式 并 不 十 唯 一 的 模式 ， 内 核 
选择 线性 地 址 到 物理 地 址 的 恒 等 映 射 ， 是 因为 对 
内 核 来 讲 最 方便 。 比 如 ， 内 核 为 进程 申请 了 页 
面 ， 这 个 页 面 忌 古 要 映 册 到 页 表 项 中 ， 这 需要 往 


页 表 项 中 与 入 该 页 面 的 物理 地 址 。 如 采 走 恒 等 映 
射 模式 ， 调 用 get_free_page () 函数 后 ， 获 取 的 
线性 地 址 值 直 接 束 可 以 当 物理 地 址 来 用 ， 所 以 更 
FIT AE ° 
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且 有 权 设 置 每 个 页 面 的 读 写 、 使 用 等 属性 ， 并 把 
这 印信 息 全 部 记录 在 页 目 永 表 和 页 表 的 表 项 中 ， 
代码 如 下 : 


/代码 路 径 : boot/head.s: 

setup _ paging: 

movl $1024*5, %ecx/*5 pages-pg_dir+4 page tables*/ 
xorl %eax, Weax 


xorl %edi, %edi/*pg_dir is at OxO00*/ 


cld; rep; stosl 


movl $pg0+7, _pg_dir/*set present bit/user r/w*/ 


movl $pg1+7, _pg_dirt+4/*--------- Wi */ 
movl $pg2+7, _pg_dir+8/*--------- Wed eee */ 
movl $pg3+7, _pg_dir+12/*--------- M an */ 


movl $pg3+4092, %edi 


movl $0xfff007，%eax/*16Mb-4096+7 (r/w user,p) */// 可 读 写 标志 
置 1， 保 证 内 核 可 对 该 页 面 进行 写 入 操作 


std 

1: stosl/*fill pages backwards-more efficient: -) */ 
subl $0x1000, %eax 

jge 1b 


ee 


这 些 “7” 的 意义 ， 我 们 在 第 1 章 中 已 经 介绍 


值得 注意 的 是 ，CPU 中 硬件 在 解析 线性 地 址 
值 的 上 时候， 下 先 要 能 够 找 得 到 页 目录 表 。 如 果 找 
不 到 它 ， 后 续 关 于 页 表 和 页 面 的 解析 束 无 法 进 
行 。 这 个 页 目录 表 基 址 值 ， 硬 件 默 认 你 存在 CR3 
里 面 。 只 要 一 解析 线性 地 址 值 ， 就 去 CR3 里 面 找 
基 址 ， 所 以 内 核 要 把 基 址 值 载 入 CR3。 代 码 如 
下 : 


// 代 码 路 人 径 : boot/head.s: 


xorl Weax, %eax/*pg_dir is at Ox0000*/ 
movl %eax, %cr3/*cr3-page directory start*/ 


ee 


这 行 对 CR3 控 作 的 指令 ， 只 有 0 特权 级 的 代码 
才能 执行 。 这 意味 看， 将 来 进程 开始 执行 后 ， 目 


CAKE DE, BRAVA YE EE H Re 
ZERA o HEAP OSPR PCIE IS Bea ETE 
CR3 上 ， 无 法 找到 其 他 进程 使 用 的 内 存 页 面 ， 也 
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地 址 空间 直接 访问 进程 的 ， 但 由 于 早 束 占有 了 所 
有 的 页 面 ， 而 且 特 权 级 是 0， 所 以 内 核 执 行 时 ， 可 
以 对 所 有 页 面 的 内 容 进 行 改 动 ,，“ 等 价 于 ”可 以 探 
作 所 有 进程 所 在 的 页 面 。 但 这 与 内 核 直接 通过 线 
性 地 址 “ 段 ? 来 访问 进程 定 两 的 事 儿 。 一 个 典型 的 
Plt Rize, RMA RIE, mA RETR IAK 
中 的 数据 写 到 用 户 空 间 内 ， 这 件 事 要 由 内 核 来 完 
成 。 代 码 如 下 : 


/代码 路 径 : mm/memory.c: 


int file read (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


chars=MIN (BLOCK_SIZE-nrleft) ; 
filp- > f_post+=chars; 

left-=chars; 

if (bh) { 

char * p=nr+bh- > b_data; 

while (chars-- > 0) 

put _fs_byte (* (p++) , buf++) ; /数据 复制 
brelse (bh) ; 

}else{ 

while (chars-->0) 

put_fs_byte (0, buf++) ; 


} 


ee ee 


/代码 路 径 : include/asm/Segment.h: 


extern inline void put_fs_byte (char val,char * addr) 


{ 


_asm ("movb%0, %%fs: 
%1": "r" (val) , "m" (*addr) ) ; //RR-SS ACERS eS asic 
录 的 段 的 内 存 地 址 中 


} 


/代码 路 径 : kernel/system_call.s 


ee 


ee ee 


movl $0x10, %edx#set up ds,es to kernel space 
mov %dx, %ds 
mov %dx, %es 


movl $0x17, %edx#fs points to local data space 


%dx，%fs// 内 核 用 FS 寄存 器 存储 用 户 进 程 LDT 中 的 数据 段 描 
Lif 


call _sys_call_table (, %eax, 4) 


ee 


从 以 上 代码 可 以 看 出 ， 内 核 肯 定 生 能 直接 访 
问 进 程 的 LDT 对 应 的 内 存 地 址 所 在 的 页 面 ， 但 不 
等 于 内 核 跨 越 了 线性 地 址 的 段 ， 访 问 了 进程 的 线 
性 地 址 空间 ， 段 的 基础 保护 并 没有 因为 分 页 而 被 
打破 。 


6.3 ”一 个 用 户 进程 从 创建 到 退出 的 完 


整 过 程 


根据 前 面 讲解 的 原理 ， 我 们 通过 一 个 实例 ， 
理论 联系 实际 ， 评 细 讲 解 一 个 用 户 进 程 从 创建 到 
退出 的 完整 过 程 。 


6.3.1 创建 str1 进 程 


1. 为 创建 进程 strl 准 备 条 件 


首先 我 们 来 介绍 一 下 str1 进 程 的 源 代码 ， 如 
F: 


#include < stdio.h > 


int foo (int n) 


{ 


char text[2048 ]; 


return 0; 

else{ 

int i=0; 

for (i; i<2048; i++) 
text[i]='\0'; 


printf ("text_%d=0x%x,Pid=%d\n", n,text,getpid () ) ; 


sleep (5) ; 
foo (n-1) ; 
} 
} 


int main (int argc,char ** argv) 
{ 
foo (6) ; 


return 0; 


硬盘 上 现在 有 一 个 叫做 str1 的 可 执行 文件 。 用 
户 在 shell 界 面 上 输入 一 条 指令 


/str1, shell 


程序 会 啊 应 并 解析 这 条 指令 ， 创 建 用 户 进 程 
由 此 开始 。 


经 解析 得 知 ， 现 在 要 执行 str1 这 个 进程 ， 于 是 
shell 调 用 fork 夯 数 开始 创建 进程 ， 产 生 int 0x80 软 
中 断 ， 最 终 上 映射 到 sys_fork () 这 个 函数 中 ， 调 用 
find_empty_process () 函数 ， 为 str1 进 程 申 请 一 
个 可 用 的 进程 号 、 在 task[64] 中 为 该 进程 申请 一 个 


鹤 削 位 置 。 我 们 这 里 假设 str1 这 个 进程 是 操作 系统 


念 速 以 后 第 一 个 申请 的 用 户 进 程 。 通 过 前 面 草 贡 
的 介绍 可 知 ， 申 请 到 的 进程 号 是 5， 在 task[64] 中 
找到 的 空 内 位 置 是 第 5 项 。 


获取 进程 号 和 获取 task[64] 空 闲 项 的 情况 ， 以 
及 str1 进 程 在 task[64] 中 所 占 的 位 置 如 图 6-4 所 示 。 


0200090 0x9FFFF OxFFFFF 0x3FFFFF OQxSFFFFF OxFFFFFF 
> bw! 


6-4 获取 str1 进 程 占用 的 进程 号 和 task[64] 中 
的 位 置 


后 面 将 根据 task[64] 中 的 项 号 ， 确 定 str1 进 程 
处 于 哪 一 个 64 MB 线性 地 址 空间 内 ， 它 的 LDT 和 
TSS 将 与 GDT 的 哪 两 项 挂 接 。 我 们 来 看 后 面 的 执 
行情 况 。 


2. 为 str1 进 程 窒 理 结构 找到 存储 空间 


Copy_process () BRAINS — (PS ie strl 
进程 申请 一 个 页 面 ， 这 个 页 面 用 来 承载 进程 的 
task_struct 和 内 核 栈 。 通 过 前 面 的 介绍 我 们 得 知 ， 
为 了 实现 对 进程 的 保护 ， 系 统 为 每 个 进程 的 官 理 
专门 设计 了 一 个 结构 ， 这 了 豆 是 task_struct。 每 个 进 
程 都 有 这 样 一 本 账 ， 以 此 保证 互 不 干扰 。 进 程 转 
入 内 核 后 ， 执 行 用 的 代码 部 是 内 核 代码 ， 但 执行 
路 径 未 必 相 同 ， 导 致 数据 讨 栈 的 顺序 和 内 容 不 
同 。 这 些 栈 义 不 能 存储 在 每 个 进程 的 用 户 空间 


内 ， 这 样 很 容易 被 履 次 或 改动 ， 这 束 需 要 为 每 个 
进程 专门 准备 一 父 内 核 栈 。 


通过 前 面 讲解 的 内 核 分 页 全 上 略 可 知 ， 所 有 有 的 
页 面 ， 在 刚 进 入 保护 模式 时 ， 束 已 经 映射 到 了 内 
核 的 16 MB 线性 地 址 空间 。 现 在 调用 get_free_page 

O RM, TEAR POUT, RHA 
task_struct 和 内 核 栈 的 页 面 只 可 能 在 内 核 的 线性 地 
址 空间 。 从 操作 系统 的 后 续 程 序 中 ， 也 没有 找到 
将 这 个 页 面 映 射 到 其 他 进程 线性 地 址 空间 风 代 
人 码 。 所 以 ， 尽 管 这 个 页 面 是 为 管理 str1 进 程 而 分 配 
的 ， 但 这 个 页 面 并 没有 映 冉 到 str1 进 程 的 线性 地 址 
空间 ， 因 此 strl 进 程 无 法 访问 这 个 页 面 ， 这 个 页 面 
始终 掌握 在 内 核 手中 。 


从 get_free_page () 函数 申请 页 面 的 策略 来 
看 ， 操 作 系 统 要 让 进程 使 用 的 页 面向 高 地 址 方向 
密 排 ， 以 此 提高 内 存 的 使 用 效率 。 进 程 执 行 时 ， 
尤其 是 多 进程 执行 时 ， 页 面 的 释放 是 随机 的 。 这 
就 导致 内 存 中 经 常会 散布 着 被 释放 的 空间 页 面 ， 
而 get_free_page () KURBE M mte HEY e 
(dts 7 Ary RAA, RERA A 
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证 所 有 申请 到 的 页 面 在 内 存 中 都 紧密 排列 ， 使 得 
在 4 GB 的 线性 地 址 空间 中 分 散 的 进程 内 存 集约 到 
有 限 的 物理 内 存 中 运行 。 


当然 ， 如 果 确 实 没 有 申请 到 空间 页 面 ， 说 明 
此 时 内 存 中 已 经 没有 页 面 供 进 程 使 用 了 ， 所 以 束 
要 直接 妈 回 错误 信息 ， 进 程 创建 就 此 结束 。 系 统 


侣 速 后 内 存 中 有 大 量 的 空闲 页 面 ，str1 进 程 又 是 仿 
速 后 刚刚 创建 的 进程 ， 所 以 此 时 可 以 申请 到 空闲 

页 面 。 根 据 前 面 确定 的 task[64] 中 的 项 号 ， 把 该 进 
程 的 task_struct 挂 接 到 task[64] 中 ，task[64] 的 项 数 

和 线性 地 址 空间 的 64 等 分 布局 正好 相符 。 每 创建 

一 个 进程 ， 都 要 把 task_struct 的 指针 载 入 ， 这 样 系 
统 如 果 查 找 进 程 ， 只 要 查 task[64]， 束 可 以 顺 着 指 
针 找 到 唯一 的 task_struct， 不 会 出 现 混乱 。 代 码 如 
下 : 


[RAG BE: kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, //iX“Snriizetask[64] FADS 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


struct task_struct * p; 
int i; 
struct file * f; 


p= (struct task_struct *) get_free_page () ; /为 str1 进 程 申 请 空 朵 
页 面 


if C p) /如 果 没 有 申请 到 空 亲 页面， 返回 错误 信息 
return-EAGAIN; 

task[nr]=p; /将 str1 进 程 的 task_struct 挂 接 到 task[64] 中 
*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 
p-> state=TASK_ UNINTERRUPTIBLE; 

p- > pid=last_pid; 


ee ee 


此 过 程 情 景 如 图 6-5 所 示 。 
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task[64] 中 空闲 项 与 空闲 页 面 排 接 
6-5 “为 str1 进 程 task_struct 申 请 页 面 并 与 损 作 
系 TE fe 


3.Shell 进 程 给 str1 进 程 复 制 task_struct 结 构 


在 Linux 0.11 设 计 痢 看 来 ， 整 个 操作 系统 中 只 
有 进程 ， 内 核定 进程 鸭 延 组 ， 所 有 的 任务 都 应 该 
由 进程 来 承担 。 沿 看 这 个 设计 思想 不 难 发 现 ， 任 
何 时 候 都 要 有 一 个 进程 在 工作 ，current 指 针 的 总 


思 束 是 当前 进程 。 创 建 一 个 进程 ， 这 个 任务 要 由 
进程 来 完成 ， 准 确 地 说 ， 要 由 当前 进程 来 完成 ， 
由 shell 把 自己 的 task_struct 结 构 复 制 给 str1 进 程 ， 
这 也 是 该 设计 思想 的 延伸 。 执 行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nrlong ebp,long edi,long esi,long gs,long 
none, //iX“Snriizetask[64] FAS 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


return-EAGAIN; 


task[nr]=p; 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/// {iil 
task_struct 结 构 给 str1 进 程 


p-> state=TASK_UNINTERRUPTIBLE; 
p- > pid=last_pid; 


复制 情景 如 图 6-6 所 示 。 
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Kl 6-6 复制 task_struct 结 构 给 str1 进 程 


给 str1 复 制 了 task_struct 后 ，str1 进 程 便 继承 了 
shell 的 全 部 管理 信息 。 但 由 于 每 个 进程 的 


task_struct 结 构 中 效 据 信息 是 不 一 样 的 ， 所 以 还 要 
对 该 结构 进行 个 性 化 设置 。 先 要 将 进程 设置 为 不 
可 中 断 等 每 状态 。 内 核 执 行 过 程 中 ，Linux 0.11 不 
人 允许 进程 间 切 换 ， 所 以 这 里 不 进行 状态 设置 也 无 
所 谓 。 但 如 末 人 允许 进程 在 内 核 执行 时 切换 ， 这 里 
束 有 必要 设置 为 不 可 中 断 等 每 状态 了。 这 是 因为 
进程 task_struct 结 构 已 经 挂 接 在 task[64] 结 构 中 
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会 轮转 到 该 进程 ， 而 此 时 其 个 性 化 设置 尚未 完 
成 ， 一 旦 切换 到 该 进程 去 执行 ， 整 会 引起 进程 执 
行 的 混乱 。 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 


long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


task[nr]=p; 
*p=*current; /*“NOTE! this doesn't copy the supervisor stack*/ 


p-> state=TASK UNINTERRUPTIBLE; /str1 进 程 被 设置 为 不 可 中 
E Se TR AS 


p- > pid=last_pid; 
p- > father=current- > pid; 


ee ee 


这 个 过 程 如 图 6-7 所 示 。 
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task_struct 结 构 中 还 有 其 他 字段 需要 个 性 化 设 
置 。str1 进 程 的 进程 号 和 shell 进 程 的 进程 号 不 一 
样 ，str1 的 父 进程 是 shell， 和 shell 进 程 的 父 进 程 也 
不 一 样 。 这 些 都 需要 进行 个 性 化 设置 ， 代 码 如 
T: 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip, long cs,long eflags,long esp,long ss) 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 
p- > state=TASK_UNINTERRUPTIBLE; 

p-> pid=last_pid; /设置 str1 进 程 的 进程 号 

p-> father=current-> pid; V/ 议 置 shell 为 str1 进 程 的 父 进程 

p- > counter=p- > priority; 

p- > signal=0; 


strl 进 程 的 时 间 片 数值 是 从 shell 进 程 继承 过 来 
的 。 此 时 shell 进 程 可 能 已 经 执行 过 一 段 时 间 了 ， 
时 间 片 可 能 已 经 减少 。 但 不 能 因为 这 些 ， 就 让 strl 
进程 的 时 间 片 也 天 然 地 减少 ， 所 以 这 里 不 能 继承 
shell 的 时 间 片 ， 而 是 用 shell 的 优先 级 来 确定 时 间 
户 。 如 采 优 移 级 没有 被 用 户 指定 设置 过 ， 它 的 数 
值 和 时 间 片 的 原始 数值 是 一 样 的 ， 即 15。 代 码 如 
下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nrlong ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip, long cs,long eflags,long esp,long ss) 


*p=*current; /*NOTE! this doesn't copy the supervisor stack*/ 
p- > state=TASK_UNINTERRUPTIBLE; 

p- > pid=last_pid; 

p- > father=current- > pid; 


p-> counter=p-> priority; /用 当前 进程 的 优先 级 设置 str1 进 程 的 时 
li] Fr 


p- > signal=0; 
p- > alarm=0; 


ee 


接 下 来 是 对 信号 的 个 性 化 设置 。task_struct 结 
构 中 ， 关 于 信和 号 的 字段 有 三 个 ， 即 signal、 
sigaction[32] 和 blocked 。 它 们 分 别 表示 信和 号 位 图 、 
言 写 处 理 函 数 挂 接点 和 信和 号 屏 敬 码 。 现 在 创建 str1 
进程 ， 只 把 signal 进 行 了 清 稚 ， 其 他 的 部 没有 设 
置 。 这 样 做 是 有 原因 的 ， 如 来 不 消 零 ， 那 么 整 等 


于 堆 认 治 用 了 父 进程 鸭 信号 位 信息 ， 将 来 str1 执 行 
时 ， 如 东 执 行 到 内 核 ， 则 返回 之 前 束 要 信和 号 检 
测 ， 本 来 str1 没 有 接收 到 信和 号 ， 吏 因为 旋 用 信和 号 位 
信息 ， 导 致 没 必 要 的 信和 与 处 理 。 为 此 需要 改变 用 
尸 栈 信息 、 弧 定 进程 的 信号 处 理 画 数 等 一 系列 配 
合 才能 处 理 信号 ， 而 str1 进 程 根 本 没准 备 这 些 ， 市 
厦 这 些 未 知 因 系 从 内 核 返 回 进程 ， 执 行 束 彻 展 视 
nba 


既然 此 时 没有 接收 信号 ， 那 束 没 必要 天 系 信 
号 处 理 芳 数 的 挂 接 和 屏蔽 码 了 ， 所 以 其 余 两 个 子 
段 不 进行 个 性 化 设置 ， 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 


long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


p- > father=current- > pid; 

p- > counter=p- > priority; 

p->signal=0; /信号 位 图 清 零 

p- > alarm=0; 

p-> leader=0; /*process leadership doesn't inherit*/ 


ESEE E, RIKER ENTA ° 


下 面 我 们 继续 介绍 其 他 字段 的 个 性 化 设置 。 
类 似 的 消 零 和 默认 继承 还 表现 在 天 于 strl1 进 程 的 时 
间 设 置 方面 和 会 话 组 织 方 面 。 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nrlong ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


p- > counter=p- > priority; 
p- > signal=0; 
p->alarm=0; /报警 定时 值 清 零 


p->leader=0; /*process leadership doesn't inherit*/// 会 话 首领 字段 


s 


VEE EE 
iB 


att 


p- > utime=p- > stime=0; 
p- > cutime=p- > cstime=0; 
p-> start_time=jiffies ; 


p-> tss.back_link=0; 


p-> tss.esp0=PAGE_SIZE+ (long) p; 


ee ee 


其 他 与 时 间 设 置 和 会 话 组 织 相关 的 字段 全 音 
沿用 。 以 上 这 些 子 段 古 为 内 核 管 理 进程 而 设置 
ee 


下 面 介绍 TSS 字 段 。 它 是 为 进程 间 切 换 而 设 
计 的 。 进 程 切 换 是 建立 在 对 进程 保护 的 基础 上 
的 。 采 取 什 么 样 的 保护 设计 ， 束 会 有 什么 样 的 进 
程 切换 模式 与 之 相 适 应 。 进 程 执行 时 ， 会 用 到 各 
种 寄存 釉 。 这 导致 进程 切换 不 会 是 一 个 商 单 的 跳 
E, Me BEA as ER ZR o ER 
证 进程 切换 走时 与 切换 回来 时 不 发 生 混 乱 ， 这 样 
才能 保证 进程 执行 的 正确 性 。 为 此 ，Linux 0.111% 


计 者 在 每 个 进程 的 task_struct 中 记 笔 账 ， 这 笔 账 就 
是 TSS。 进 程 切换 丈 要 与 此 相 适 应 。 每 当 进 程 切 
换 ， 就 用 TSS 来 保存 现场 ， 即 保存 当前 各 个 寄存 

但 的 状态 ， 等 切换 回 这 个 进程 后 ， 再 用 TSS 中 的 
数据 恢复 寄存 器 中 的 数据 。 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


p- > cutime=p- > cstime=0; 
p-> start_time=jiffies ; 


p->tss.back_link=0; /以 下 代码 是 对 TSS 字 段 的 设置 


p->tss.esp0=PAGE_SIZE+ (long) p; 
p- > tss.ssO=0x10; 
p-> tss.eip=eip; 

p-> tss.eflags=eflags; 
p- > tss.eax=0; 

p- > tss.ecx=ecx; 

p- > tss.edx=edx; 

p- > tss.ebx=ebx; 

p- > tss.esp=esp; 

p-> tss.ebp=ebp; 

p- > tss.esi=esi; 

p-> tss.edi=edi; 

p- > tss.es=es & Oxffff; 
p- > tss.cs=cs & Oxffff; 
p- > tss.ss=ss & Oxffff; 
p- > tss.ds=ds & Oxffff; 


p- > tss.fs=fs & Oxffff; 


p- > tss.gs=gs & Oxffff; 

p->tss.ldt=_LDT (nr) ; /以 上 代码 是 对 TSS 字 段 的 设置 
p- > tss.trace_bitmap=0x80000000; 

if (last_task_used_math==current) 


_asm ("clts; fnsave%0": "m" (p->tss.i387) ) ; 


ee ee 


从 以 上 代码 中 可 以 看 出 ，copy_process () K 
数 参 数 中 设置 的 变量 ， 基 本 都 用 来 设置 段 寄 存 
ans 将 来 str1 开 始 执 行 的 契机 ， 也 必 将 是 一 次 进程 
切换 导致 的 ， 而 一 旦 发 生 进程 切换 ，TSS 这 一 整 
僚 的 寄存 如 值 部 伴 随 过 去 ， 用 来 初始 化 CPU 的 各 
个 寄存 器 ， 并 决定 str1 进 程 开始 的 执行 状态 。 


尺 外 值得 注意 的 征 ， 用 这 些 数值 来 设置 寄存 
研 ， 征 CPU 目 动 完成 的 ， 所 以 我 们 在 内 核 中 找 不 
到 给 寄存 天 央 值 的 代码 。 那 么 CPU 中 的 便 件 怎么 
知道 哪个 效 值 是 用 来 为 哪个 寄存 万 赋值 的 呢 ? 只 
有 一 种 可 能 ， 束 是 CPU 硬件 的 事先 约定 ， 按 照 目 
前 TSS 中 各 个 字段 的 顺序 取 值 。 这 意味 看 ， 如 末 
顺序 排列 错误 ， 进 程 执 行 束 混乱 了 。 


对 进程 的 体 护 不 仅 体 现在 内 核对 进程 的 管理 
以 及 进程 切换 时 的 控制 ， 在 进程 执行 的 过 程 中 ， 
HRA BENZ eaters, RAR 
现 为 分 段 和 分 页 。 下 面 我 们 继续 介绍 str1 分 段 和 分 
页 的 情况 。 


5. 复 制 strl 进 程 页 表 并 设置 其 对 应 的 页 目录 项 


现在 调用 copy_mem () 函数 为 进程 分 段 ， 即 
确定 线性 地 址 空间 。 


通过 前 面 的 介绍 我 们 得 知 ， 确 定 线性 地 址 至 
间 ， 关 键 在 于 确定 段 基 址 和 段 限 长 。 执 行 代码 如 
下 : 


/代码 路 径 : kernel/fork.c: 

int copy_mem (int nr,struct task_struct * p) 

{ 

unsigned long old_data_base,new_data_base,data_limit; 
unsigned long old_code_base,new_code_base,code_limit; 


code _limit=get_limit (OxOf) ; /获取 当前 进程 ， 即 shell 代 码 段 段 
限 长 


data _limit=get_limit (0x17) ; /获取 当前 进程 ， 即 shell 数 据 段 段 
限 长 


old _code_base=get_base (current->ldt[1]) ; 


old _data_base=get_base (current->ldt[2]) ; 


if (old_data_base! =old_code_base) 
panic ("We don't support separate I& D") ; 
if (data limit < code_ limit) 

panic ("Bad data limit") ; 


new _data_base=new_code_base=nr*0x4000000; /根据 在 task[64] 中 
确定 的 项 号 nr， 确 定 段 基 址 


p- > start_code=new_code_base; 


set_base (p->Idt[1], new_code_base) ; /参考 st 进程 代码 基 址 
设置 它 的 LDT 


set_base (p->ldt[2], new_data_base) ; /参考 str1 进 程 数 据 段 基 
址 设置 它 的 LDT 


if (copy_page_tables (old_data_base,new_data_base,data_limit) ) 


free _page_tables (new_data_base,data_limit) ; 


return-ENOMEM;; 


return 0; 


值得 注意 的 是 ， 从 以 上 代码 中 我 们 看 到 了 根 
据 task[64] 中 的 项 号 nr 来 确定 str1 进 程 段 基 址 ， 并 
参考 段 基 址 设置 了 str1 进 程 的 LDT， 但 始终 没有 看 
到 设置 它 的 段 限 长 。 通 过 前 面 的 介绍 我 们 得 知 ， 
进程 的 段 限 长 存储 在 LDT 中 ， 复 制 task_struct 结 构 
时 ， 把 LDT 也 复制 过 来 了 了， 没有 改变 。 这 说 明 str1 
沿用 了 其 父 进 程 shell 的 LDT。 这 样 做 的 理由 是 ， 
str1 进 程 开始 执行 后 总 要 执行 代码 ， 但 它 还 没有 加 
载 属 于 目 己 的 程序 (或 许 以 后 也 不 加 载 7) ， 这 
样 驶 只 能 和 父 进 程 共 用 代码 。 此 时 沿用 父 进程 的 
段 限 长 ， 瓯 是 为 了 能 够 共享 到 父 进程 的 全 部 代码 
和 数据 。 


分 段 问 题 处 理 完 毕 后 ， 下 面 开始 分 页 。 分 页 
分 


尽 建 立 在 分 段 基础 上 的 ， 具 体 表现 为 ， 分 段 时 用 


段 基 址 和 段 限 长 分 别 为 分 页 确定 了 从 哪里 开始 复 
制 页 面 表 项 信息 、 复 制 到 哪里 去 和 复制 多 少 这 二 
件 事 ， 代 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_mem (int nr,struct task_struct * p) 


new _data_base=new_code_base=nr*0x4000000; 
p- > start_code=new_code_base; 

set_base (p->Idt[1], new_code_base) ; 

set base (p->Idt[2], new_data_base) ; 


if (copy_page_tables (old_data_base,new_data_base,data_limit) ) 
{/ 调 用 此 函数 为 str1 进 程 分 5 


free _page_tables (new_data base,data limit) ; 
return-ENOMEM;; 


} 


return 0; 


} 


前 面 分 段 时 我 们 介绍 到 ，str1 创 建 后 ， 还 没有 
自己 的 程序 ， 还 要 和 父 进程 shell 共 享 程序 。 
点 在 分 页 时 表现 为 与 shell 进 程 共享 页 面 ， 即 为 strl 
进程 男 起 一 套 页 目录 项 和 页 表 项 ， 使 之 和 shell 指 
器 共同 的 页 面 。 代 码 如 下 : 


// 代 码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long 
size 


for (; size-->0; from_dir++, to_dirt+) {// 这 里 体现 了 分 段 是 分 
页 的 基础 


if (1&*to_dir) 


panic ("copy_page tables: already exist") ; 


if (! (1&*from dir) ) 
continue; 
from _page_table= (unsigned long *) (Oxfffff000&*from_dir) ; 


if (! (to_page_table= (unsigned long *) get free page () ) ) // 
为 创建 页 表 新 申请 一 个 页 面 


return-1; /*Out of memory,see freeing*/ 
*to_dir= ( (unsigned long) to_page table) |7; /设置 页 目录 项 
nr= (from==0) ?0xA0: 1024: 


for (; nr-->0; from_page_table++, to_page_table++) {/ 复 制 页 


this _page=*from_page_table; 
if (! (1&this_page) ) 


continue; 


this_page&=~2; /这 里 的 设置 使 共享 的 页 面 对 于 shell 进 程 来 讲 
是 只 读 的 


*to_page_table=this_ page; /这 里 的 设置 使 共享 的 页 面 对 于 str1 进 
程 来 讲 是 只 读 的 


if (this page > LOW_MEM) { 


*from_page_table=this_page; 


this _page-=LOW_MEM; 
this _page > >=12; 

mem _map[this_page]++; 
} 

} 


} 
invalidate () ; 


return 0; 


} 
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设置 页 目录 项 


6-8 为 str1 进 程 复 制 页 表 并 设置 str1 进 程 的 页 
目 孙 项 


值得 注意 的 是 ， 为 新 进程 创建 页 表 时 ， 还 要 
调用 get_free_page () 函数 申请 空 有 页 面 。 从 需 
求 上 来 看 ， 这 里 申请 的 页 面 ， 将 用 来 承载 新 进程 
的 页 表 项 。 这 些 页 表 项 是 用 来 窒 理 str1 所 占用 的 页 
面 的 ， 是 不 让 进程 使 用 的 ， 所 以 这 里 只 申请 了 页 
面 ， 并 没有 了 映射 到 str1 进 程 的 线性 地 址 空间 内 。 与 
前 面 为 进程 的 task_struct 和 内 核 栈 申请 页 面 类 似 ， 
这 里 申请 页 面 时 ， 程 序 是 在 内 核 中 执行 的 ， 处 于 
内 核 的 线性 地 址 空间 内 ， 此 时 申请 的 页 面 早已 映 
吊 到 内 核 的 线性 地 址 空间 内 ， 内 核 因此 具备 访问 
EREN o HE, WEARER M ARAIN 
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进程 访问 不 人 到。 进程 访问 不 到 的 根本 原因 是 ， 内 
核 没 有 把 这 些 页 面 映 喘 到 进程 的 线性 地 址 空间 
px 


分 段 、 分 页 完成 后 ， 还 有 文件 继承 的 问题 要 
处 理 。shell 进 程 打开 的 文件 ， 它 的 于 进程 一 并 继 
水 ， 具 体 表 现 为 ， 将 文件 的 引用 计 效 和 im 总 的 引 
用 计数 素 加 ， 将 来 子 进程 需要 使 用 这 些 文件 时 ， 
丈 可 以 直接 操作 ， 不 需要 再 重新 打开 。 比 如 说 ， 
shell 埋 程 仿 速 前 打开 了 tty 文 件 ， 还 复制 了 文件 名 
柄 ，str1 进 程式 可 以 直接 用 ， 不 需要 重新 读 取 了 。 
引用 计 效 素 加 的 执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nrlong ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 


long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


if (copy_mem (nrp) ) { 
task[nr]=NULL; 

free_page ( (long) p) ; 
return-EAGAIN; 

} 

for (i=0; i<NR_OPEN; i++) 

if (f=p-> filp[i]) 

f->f_count++; /累加 文件 引用 计数 
if (current- > pwd) 
current->pwd->i_count++; /AJN4 By LE A Ri AS ire 
if (current-> root) 


current->root->i_count++; //AJIS av A Ri S| HITA 


if (current-> executable) 


current- > executable- >i_count++; // 囚 加 可 执行 文件 i 节点 的 引用 
te 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ ENTRY, & (p-> 
tss) ) 


set_Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; 


ee ee 


6. 建 立 strl 进 程 与 全 局 描述 符 表 (GDT) 的 关 
联 


文件 继承 问题 解决 后 ， 将 str1 的 进程 TSS 和 
LDT 挂 接 在 GDT 的 指定 位 置 处 。 代 人 码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 


long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


if (current- > pwd) 

current- > pwd- > i_count++; 

if (current-> root) 

current- > root- > i_count++; 

if (current-> executable) 

current- > executable- > i_count++; 


set_tss_desc (gdt+ (nr< <1) +FIRST_TSS_ ENTRY, & (p-> 
tss) ) ; /将 str1 进 程 的 TSS 挂 接 在 GDT 上 并 设置 段 信息 


set_Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; /将 str1 进 程 的 LDT 挂 接 在 GDT 上 并 设置 段 信息 


p-> state=TASK_ RUNNING; /*do this last,just in case*/ 


return last_pid; 


} 


设置 过 程 如 图 6-9 所 示 。 


oe Ox9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 


153 aS 


oe striifjtask struct ,...， 


es 内 核 数据 区 


图 6-9 str1 进 程 的 TSS 和 LDT 与 GDT 挂 接 


TSS 和 LDT 对 进程 的 保护 至 关 重 要 。 保 护 的 
本 质 ， 束 是 不 能 让 进程 执行 时 干扰 到 其 他 进程 。 
在 “ 段 ”* 这 方面 ， 有 以 下 两 种 方式 可 以 跳 到 其 他 进 
程 。 


第 一 ， 前 面 讲 解 过 ， 执 行 段 内 跳 轴 指令 ， 但 
跳 园 值 超过 了 段 限 长 。 这 一 后 便 件 始终 在 关注， 


LDT 中 记录 了 进程 的 段 基 址 和 段 限 长 ， 每 执行 一 
条 指令 ， 硬 件 都 会 检查 是 否 超过 设 定 的 范围 ， 如 


末 超 过 了 ， 束 直接 报 GP I, IRÍTIZE ° 


第 二 ， 进 程 执 行 时 ， 执 行 段 辣 跳 转 指令 ， 以 
此 实现 段 间 跳 转 。Linux 0.11 中 ， 每 个 进程 一 套 
LDT， 此 时 进程 是 在 3 特权 级 下 执行 的 ， 用 LDT 中 
提供 的 段 朱 述 待 。 在 这 种 情况 下 ， 如 东 要 实现 段 
间 跳 转 ， 要 把 当前 的 LDT 更 换 为 其 他 段 的 LDT， 
以 此 更 改 段 搞 述 符 ， 怠 需要 LDTR 中 LDT 的 基 址 ， 
执行 的 指令 是 “LLDT”， 而 这 条 指令 只 能 在 0 特权 
级 下 执行 ， 所 以 此 时 无 法 改变 LDT。 这 束 导 致 ， 
进程 无 论 怎么 做 ， 都 无 法 跳 转 到 其 他 段 ， 也 就 是 
无 法 直接 跳 转 到 其 他 进程 。 


假设 Linux 0.11 的 保护 格局 不 是 这 样 的 ， 所 有 
进程 都 不 用 LDT 来 记录 段 描述 符 ， 而 是 统一 用 
GDT， 那 就 不 用 执行 LGDT 指 令 来 改变 GDT 了 ， 
就 可 以 实现 段 间 跳 转 ， 打 破 了 保护 。 可 见 ， 设 计 
者 对 段 一 级 的 你 护 很 是 费 了 一 些 心思 。 


IX PNR ER BES IE ST, ERR RP 
T° ER RP KEME, FSET 
实施 保护 。 从 前 面 我 们 对 两 次 get_free_page () 
函数 的 调用 可 知 ， 分 页 动作 完全 都 征 由 内 核 完 友 
的 。 如 琳 内 核 不 把 页 面 映 射 到 进程 的 线性 地 址 空 
BAN, HIENA RAA e WRR, We 
fare DU RAAT, MA RA RAY 
人 确定， 完全 取决 于 进程 的 线性 地 址 空间 ， 只 要 线 


性 地 址 空间 不 重合 ,分 页 肯定 不 会 引起 进程 内 存 
的 混乱 。 


7. 将 str1 进 程 设 为 就 绪 态 


创建 str1 进 程 的 过 程 到 此 结束 了 ， 将 它 的 状态 
设置 为 “ 丈 绪 个"”。 这 意味 着 str1 进 程 可 以 参与 轮转 
7? 


执行 代码 如 下 : 


/代码 路 径 : kernel/fork.c: 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 
long eip,long cs,long eflags,long esp,long ss) 


{ 


set _tss_desc (gdt+ (nr< <1) +FIRST_TSS_ENTRY, & (p-> 
tss) ) ; 


set _Idt_desc (gdt+ (nr< <1) +FIRST_LDT_ENTRY, & (p-> 
ldt) ) ; 


p-> state=TASK_RUNNING; /*do this last,just in case*/// 设 置 为 就 
绪 太 


m = re 
return last_pid; 


} 


这 一 过 程 如 图 6-10 所 示 ， 其 中 的 state 被 设置 
为 了 TASK_RUNNING。 


ee Ox9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 
Zi BBS 
strl 的 task struct | strl 的 task_struct 所 在 页 面 
设置 为 就 绪 坊 


6-10 “将 str1 设 置 为 就 绪 态 


6.3.2 str1 进 程 加 载 的 准备 工作 


1. 为 用 户 进 程 str1 的 加 载 做 准备 


为 用 户 进 程 str1 的 加 载 做 准备 与 为 shell 程 序 的 
加 载 做 准备 的 方式 是 大 体 相 同 的 ， 包 括 对 参数 和 
环境 变量 等 外 围 环境 的 检测 、 对 str1 可 执行 文件 的 
分 测 、 对 str1 进 程 task_struct 的 针对 性 调整 以 及 最 
终 设置 EIP、ESP 这 几 部 分 。 


进入 do_execve 了 芳 数 后 ， 先 要 做 外 围 准 备 工 
作 ， 即 为 管理 str1 进 程 参 数 和 环境 变量 所 占用 的 页 
面 做 准备 ， 还 需要 把 str1 所 在 的 文件 i 广 点 读 出 
来 ， 通 过 i 市 护 信 息 ， 检 测 文 件 目 喘 是 否 有 问题 ， 
再 通过 i 市 扩 找 到 文件 涉 ， 对 文件 进行 检测 ， 其 中 
包括 检查 记录 的 可 执行 文件 代码 长 度 、 效 据 长 


度 ， 能 不 能 容纳 在 64 MB 的 线性 地 址 空间 内 。 代 
Aan F: 


/代码 路 径 : fs/exec.c: 


int do_execve (unsigned long * eip,long tmp,char * filename， 


char ** argv,char ** envp) 


if (N MAGIC (ex) ! =ZMAGIC|lex.a_trsize||ex.a_drsizel| 


ex.a_texttex.a_data+ex.a_bss > 0xX3000000|w 代 码 、 数 据 、 堆 的 总 长 
度 不 能 超过 48 MB 


inode- > i_size < ex.a_text+ex.a_datatex.a_syms+N_TXTOFF 


(ex) ) { 


retval=-ENOEXEC; 


goto exec_error2; /如 果 超 过 48 MB， 直 接 跳 转 到 错误 处 


ee 


这 些 检查 完成 ， 标 志春 strl 程 序 在 文件 格式 的 
规 苑 性 方面 没有 问题 ， 而 且 能 够 容纳 在 64 MB 的 
线性 地 址 空间 内 。 有 了 这 个 前 握 ， 再 往 下 调整 才 
有 意义 。 


创建 str1 进 程 时 我 们 介绍 到 ， 它 共享 了 一 些 
shell 进 程 打 开 的 文件 ， 继 承 了 一 些 shell 进 程 的 信 
号 字段 内 容 。 现 在 它 要 加 载 自 己 的 程序 了 ， 所 以 
有 些 关 系 要 解除 ， 有 些 要 清 零 。 代 人 码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp) 


if (! sh bang) { 


p=copy_strings (envc,envp,page,p, 0) ; 
p=copy_strings (argc,argv,page,p, 0) ; 
if C! p) { 

retval=-ENOMEM; 

goto exec_error2; 

} 

} 


/*OK,This is the point of no return*/ 


if (current-> executable) /要 从 str1 这 个 可 执行 文件 中 载 入 程序 
了 了， 了 就 不 需要 共享 shell 进 程 可 执行 文件 的 i 贡 点 了 


iput (current- > executable) ; // 解 除 与 shell 进 程 可 执行 文件 i 节点 
的 关系 


current- > executable=inode; /Wstr1 可 执行 文件 的 i 节点 取代 
for (i=0; i<32; i++) 


current- > sigaction[i].sa_handler=NULL; // 把 信和 号 句柄 清空 ， 准 备 
加 载 用 户 上 自己 的 信号 处 理 程序 


for (i=0; i<NR_OPEN; i++) 
if ( (current->close on exec> >i) &1) 


sys _close (i) ; 


current- > close_on_exec=0; // 把 打开 文件 的 屏 菩 位 清 零 


free _page tables (get_base (current->1dt[1]) , get limit 
(Ox0f) ) ; 


free _page_tables (get base (current->1dt[2]) , get limit 
ORI) P mani 


} 


2. 释 放 str1 进 程 的 页 表 


前 面 已 经 介绍 str1 进 程 现在 与 shell 进 程 正在 共 
享 着 相同 的 页 面 ， 现 在 str1 要 加 载 目 己 的 程序 了 ， 
需要 解除 共享 天 系 ， 通 过 调用 free_page_tables 
O 画 数 来 实现 。 执 行 代码 如 下 : 


/代码 路 径 : fs/exec.c: 
int do_execve (unsigned long * eip,long tmp,char * filename， 
char ** argv,char ** envp) 


{ 


for (i=0; i<NR_OPEN; i++) 

if ( (current->close_on_exec> >i) &1) 
sys _close (i) ; 

current- > close_on_exec=0; 


free _page_tables (get_base (current->Idt[1]) , get limit 


(0x0f) ) ; /释放 代码 段 共享 的 页 面 


free _page_tables (get_base (current->ldt[2]) , get limit 


(0x17) ) ; /释放 数据 段 共 享 的 页 面 
if (last_task_used_math==current) 
last _task_used_math=NULL; 
current- > used_math=0; 


ee 


/代码 路 径 : mm/memory.c: 


int free_page_tables (unsigned long from,unsigned long size) 


if (1&*pg_table) 

free _page (Oxfffff000&*pg table) ; /释放 掉 共 享 的 页 面 
*pg_table=0; /页 表 项 清 零 

pg _table++; 

} 

free_page (Oxfffffo00&*dir) ; /释放 掉 页 表 自 身 占 用 的 页 面 


*dir=0; /MA RIMS 


释放 页 表 的 过 程 如 图 6-11 所 示 ， 请 读者 注意 
其 中 页 目录 项 的 变化 。 


ee aar i OxFFFFF Ox3FFFFF 0x5FFFFF OxFFFFFF 
| 
351i pS 
X 
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设置 页 目录 项 


3 I X wend 


6-11 释放 str1 进 程 继承 的 页 面 


值得 注 营 的 是 ， 原 来 str1 进 程 与 shell 进 程 是 共 
译 页 面 的 ， 即 对 于 这 两 个 进程 ， 共 至 的 页 面 都 古 
只 读 的 。 现 在 解除 的 是 str1 和 共 圣 页 面 的 天 系 ， 但 
这 些 页 面 对 于 shell 进 程 来 讲 仍然 是 只 读 的 ， 那 么 
这 样 会 不 会 影响 shell 进 程 将 来 的 执行 ? 这 一 点 我 
们 在 后 面 讲解 写 时 复制 时 会 详细 介绍 。 


过 


3. 重 新 设置 str1 的 程序 代码 段 和 数据 段 


str1 进 程 要 加 载 目 己 的 程序 ， 需 要 根据 程序 的 
长 度 来 重新 设置 LDT， 代 码 如 下 : 


// 代 码 路 径 : fs/exec.c: 


int do_execve (unsigned long * eip,long tmp,char * filename， 


char ** argv,char ** envp) 


ee 


p+=change_ldt (ex.a_text,page) -MAX ARG PAGES * 
PAGE_SIZE; /重新 设置 段 限 长 


ee ee 


static unsigned long change ldt (unsigned long text_size,unsigned 
long * page) 


code _limit=text_size+PAGE_SIZE-1; 


code _limit&¢=OxFFFFF000; /根据 代码 长 度 重新 设置 了 代码 段 的 
段 限 长 


data _limit=0x4000000; /将 数据 段 长 度 设置 为 64 MB 
code _base=get_base (current- >1dt[1]) : 

data _base=code_base; // 段 基 址 没有 变化 

set_base (current->1dt[1], code base) ; 

set_limit (current->1dt[1], code limit) ; 


set_base (current->1dt[2], data_base) ; 


set limit (current->1dt[2], data limit) ; 


ee 


这 里 是 对 str1 进 程 段 限 长 的 最 后 设置 ， 可 以 看 
出 ， 始 终 没 有 超过 64 MB。 如果 str1 进 程 以 后 做 父 
进程 ， 根 据 进 程 复制 机 制 ， 它 创建 出 来 的 子 进程 
的 段 限 长 也 不 会 超过 64 MB， 这 样 ， 系 统 创建 的 
每 个 进程 ， 都 被 限制 在 属于 目 己 的 64 MBH AS 
间 内 。 


设置 过 程 如 图 6-12 所 示 。 


ne Ox9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 


xi  . bw 
task. oot sie | strittiask struct 所 在 页 面 
: LDT 
; 代码 段 LDT[1] 
| 数据 段 LDT[2] 
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id oe | 代码 段 限 长 

数据 段 限 长 


6-12 重新 设置 strl 程 序 的 代码 段 和 数据 上段 


4. 调 整 str1 进 程 task_struct 


对 str1 进 程 task_struct 中 的 brk、start_stack 等 信 

轧 进 行 设置 。 议 置 这 些 字 段 的 作用 ， 十 为 了 避免 

TERETE DUTY ZER, At bee, PER 
护 。 执 行 代码 如 下 : 


// 代 码 路 径 : fs/exec.c: 


int do_execve (unsigned long * eip,long tmp,char * filename, 


char ** argv,char ** envp) 


current- > used_math=0; 


p+=change_Idt (ex.a_text,page) -MAX ARG PAGES * 
PAGE_ SIZE; 


p= (unsigned long) create_tables ( (char *) p,argc,envc) ; 


current- >brk=ex.a_bss+/ 以 下 是 根据 文件 头 ex 中 提供 的 信息 ， 设 置 
程序 控制 字段 


(current- > end_data=ex.a_data+ 
(current- > end_code=ex.a_text) ) ; 
current- > start_stack=p Sz Oxfffff000; 
current- > euid=e_uid; 
current- > egid=e_ gid; 
i=ex.a_texttex.a_data; 
while (i&Oxfff) 


put _fs_byte (0, (char*) (i++) ) ; 


eip[0]=ex.a_entry; /*eip,magic happens: -) */ 
eip[3]=p; 


设置 结果 装载 到 str1 进 程 task_struct 所 占 页面 
的 过 程 如 图 6-13 所 示 。 


oe Ox9FFFF OxFFFFF OQx3FFFFF OxSFFFFF OxFFFFFF 


调整 str1 的 task_ struct 的 其 他 一 些 变量 


图 6-13 调整 str1 进 程 task_struct 


最 后 再 调整 EIP 和 ESP， 使 软 中 断 返 回 后 ， 直 
接 从 str1 程 序 开始 位 置 执行 。 前 面 我 们 已 经 介绍 
过 ，str1 进 程 与 shell 进 程 解除 了 共 至 页 面 的 关系 ， 


控制 页 面 的 页 表 也 已 经 释放 ， 断 绝 了 与 str1 进 程 的 
页 目录 项 的 映射 天 系 。 这 意味 看 页 目 孙 项 的 内 容 
为 0， 包 括 P 位 也 为 0。 strl 程 序 一 开始 执行 MMU 
解析 线性 地 址 值 时 束 会 发 现 对 应 的 页 目录 项 P 位 为 
0， 因 此 产生 缺 页 中 断 。 


6.3.3 str1 进 程 的 运行 、 加 载 
1. 产 生 缺 页 中 晰 并 由 操作 系统 啊 应 


缺 页 中 断 信 号 产生 后 ，page_fault 文 个 服务 程 
序 将 对 此 进行 啊 应 ， 并 最 终 在 _page_fault 中 通 
过 “call do_no_page” 调 用 到 缺 页 中 断 处理 程 序 
_do_no_page 中 去 执行 。 


执行 代码 如 下 : 


// 代 码 路 径 : mm/page.s: 
_page_fault: 
testl $1, %eax 


jne 1f 


1: call do_no_page 


ee 


进入 do_no_page () 画 数 后 ， 在 加 载 str1 程 序 
之 前 ， 先 要 做 如 下 两 方面 的 检测 。 


第 一 ，str1 进 程 是 人 否 已 经 把 程序 加 载 进来 了 ， 
或 者 产 生 缺 页 中 断 的 线性 地 址 值 是 否 已 经 超出 了 
程序 代码 的 末端 。 显 然 两 种 情况 都 不 成 并 ，str1 的 
代码 内 容 将 从 硬 一 上 加 载 。 执 行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


ee 


address & =Oxfffff000; 


tmp=address-current- > start_code; 


if (! current- > executablelltmp > =current- > end_data) 


{/Wexecutable 为 str1 程 序 所 在 文件 im 点 ，end_data 为 程序 代码 末端 
get _empty_page (address) ; 
return; 
} 
if (share_page (tmp) ) 
return; 


第 二 ，str1 征 否 有 可 能 与 某 个 现 有 的 进程 共 孚 
代码 ， 比 如 某 个 其 他 进程 已 经 把 str1 程 序 加 载 了 的 
情况 。 显 然 现在 也 不 可 能 。 代 码 如 下 : 


/代码 路 径 : mm/memory.c: 
void do_no_page (unsigned long error_code,unsigned long address) 


{ 


ee ee 


if (! current- > executablelltmp >=current->end_data) { 
get_empty_page (address) ; 

return; 

} 

if (share_page (tmp) ) // 试 图 和 其 他 进程 共享 

return; 


if (! (page=get free page () ) ) 


现在 的 情况 和 加 载 shell 程 序 时 的 情况 一 样 ， 
都 需要 从 人 硬盘 上 把 程序 加 载 进来 。 下 面 束 要 在 主 
内 存 中 申请 空 几 页 面 ， 然 后 加 载 strl 程 序 。 


2. 为 str1 程 序 申请 一 个 内 存 页 面 


在 主 内 存 中 申请 一 个 空 则 页 面 ， 准 备 将 str1 最 
起 始 部 分 的 程序 载 入 ， 执 行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


if (share_page (tmp) ) 
return; 


if (! (page=get_free page () ) ) // 为 strl 申 请 页 面 


oom () ; /要 是 申请 不 到 空闲 页 面 ， 就 令 str1 进 程 退 出 
/*remember that 1 block is used for header*/ 


block=1+tmp/BLOCK_SIZE; 


ee ee 


为 str1 程 序 申请 的 空 箱 页 面 及 其 在 内 存 管 
构 mem_map 中 登记 的 情况 如 图 6-14 所 示 。 


Wn Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 
| | | 
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6-14 ”为 str1 程 序 申请 一 个 内 存 页 面 


从 前 面 的 讲解 可 知 ， 所 有 分 配给 进程 的 页 面 

天 然 存在 两 父 映 射 天 系 ， 一 均 是 与 内 核 线性 地 址 
空间 的 映射 ， 为 一 套 是 与 进程 线性 地 址 空间 的 映 
吊 。 内 核 与 页 面 的 映 喘 关系 从 来 没 个 解除 过 。 试 
想 如 有 果 把 页 面 映 射 给 进程 后 吏 解 除了 内 核 与 页 面 


的 映 冉 天 系 ， 那 束 意 味 痢 内 核 无 法 访问 到 这 个 页 
面 了 。 


3. 将 str1 程 序 加 载 到 新 分 配 的 页 面 中 


将 str1 程 序 从 硬 强 加 载 到 这 个 狐 分 配 的 页 面 
中 ， 一 次 加 载 4 KB 的 内 容 。 执 行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


if (! (page=get free page () ) ) 

oom () ; 

/*remember that 1 block is used for header*/ 
block=1+tmp/BLOCK_SIZE; 


for (i=0; i<4; block++, i++) 


nr[ilj=bmap (current- > executable,block) : 


bread _page (page,current- > executable- >i_devnr) ; /从 硬盘 上 
读 取 str1 的 信息 


i=tmp+4096-current- > end_data; 
tmp=page+4096; 


其 中 ，bmap () BRACES H5.5 1 CAE 
讲解 过 ;，bread_page O) 函数 的 执行 过 程 本 质 上 
与 bread () 函数 相同 。 


过 程 如 图 6-15 所 示 。 
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6-15 ”将 strl 程 序 的 初始 部 分 加 载 到 新 分 配 页 
面 


由 于 这 个 页 面 慎 已 经 映射 到 了 内 核 的 线性 地 
址 空间 内 ， 所 以 狐 加 载 进 来 的 内 容 ， 只 要 内 核 有 有 
需要 ， 就 可 以 进行 任意 改动 ， 以 后 加 载 进 来 的 内 
容 也 一 样 。 

4. 将 分 配给 str1 程 序 的 物理 内 存 地 址 与 str1 进 
程 的 线性 地 址 空间 对 应 


str1 程 序 载 入 后 ， 将 这 页 内 存 映 射 到 str1 进 程 
的 线性 地 址 空间 内 。 对 应 的 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


while (i-->0) { 

tmp--; 

* (char *) tmp=0; 

} 

if (put_page (page,address) ) /映射 到 strl 的 线性 地 址 空间 内 
return; 

free_page (page) ; 

oom () ; 


} 


映射 过 程 如 图 6-16 所 示 。 请 读者 注意 在 此 过 
程 中 ， 对 页 目录 项 进行 了 设置 。 
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| | — 线性 地 址 空间 
Al 6-16 将 strl 程 序 的 物理 地 址 与 线性 地 址 对 应 


映射 完毕 后 ，str1 进 程 才能 执行 到 加 载 的 程 
Eo 


5. 不 断 通过 缺 页 中 断 加 载 strl 程 序 的 全 部 内 容 


这 个 str1 程 序 是 大 于 一 个 页 面 的 ， 所 以 ， 在 执 
行 过 程 中 ， 如 果 需 要 新 的 代码 ， 束 会 不 断 地 产生 
缺 页 中 断 ， 以 此 来 不 断 地 加 载 需 要 执行 的 程序 。 


到 这 里 为 止 ，str1 的 加 载 过 程 职 介绍 完了 。 下 
面 开 始 介绍 str1 运 行 起 来 的 情况 。 

1.strl 程 序 需 要 压 栈 

程序 开始 运行 了 ， 压 栈 动作 产生 。 


str1 程 序 中 的 foo 函 数 被 递归 调用 了 ， 在 foo 男 
数 中 使 用 一 个 大 小 为 2048 的 字符 数组 text (为 了 能 
够 让 缺 页 中 断 的 效果 更 快 地 表现 出 来 ， 所 以 我 们 
这 里 设置 的 数组 大 小 为 2048 字 节 ， 这 样 ， 两 次 压 
R, ARMERT) ， 以 使 str1l 进 程 的 栈 空间 以 较 


快 的 速度 增长 。 每 调用 一 次 foo 函 数 ，str1j 进 程 栈 
(ESP) 就 向 下 增长 2048 字 节 。 


2.str1 程 序 第 一 次 调用 foo 程 序 压 栈 


第 一 次 调用 foo 函 数 ，ESP 向 下 扩充 了 2048 字 
他。 在 扩充 之 前 ，ESP 所 指 同 的 用 户 进程 参数 及 
环境 变量 列表 已 经 在 页 面 中 占据 了 一 定 的 空间 。 
此 时 扩充 2048 字 节 ， 再 加 上 原来 参数 列表 占用 的 
这 部 分 空间 ， 仍 然 没 有 超出 一 个 页 面 的 总 空间 4 
KB， 所 以 ， 目 前 尚 可 以 与 列表 共存 于 同一 物理 页 
面 中 ， 和 情况 如 图 6-17 所 示 。 


ore Ox9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 


6-17 ”str1l 程 序 第 一 次 压 栈 
3.str1 程 序 第 二 次 压 栈 ， 产 生 缺 页 中 晰 


第 二 次 调用 foo 函 数 时 ， 情 况 束 不 同 了 。 加 上 
第 一 次 扩充 的 2048 字 方 ， 此 时 这 个 页 面 已 经 无 法 
继续 承载 2048 字 三 的 内 容 了 了。MMU 解 析 线 性 地 址 
值 的 上 时候， 会 发 现 狐 的 页 表 项 中 P 位 为 0， 因 此 再 
次 产生 缺 页 中 断 ， 准 备 申 请 新 的 页 面 。 


4. 处 理 str1 程 序 第 二 次 压 栈 产生 的 忠 页 中断 


狐 的 物理 页 面 最 终 会 映射 到 str1 进 程 的 线性 地 
址 空间 内 ， 以 此 文 持 寻 址 。 这 次 缺 页 中 断 仍 然 是 
进入 do_no_page () 函数 去 执行 ， 但 是 执行 的 代 
码 不 同 了 ， 接 下 来 会 执行 如 下 的 代码 : 


/代码 路 径 : mm/memory.c: 


void do_no_page (unsigned long error_code,unsigned long address) 


ee 


address & =Oxfffff000; 
tmp=address-current- > start_code; 


if (! current- > executablelltmp >=current->end_data) {// 此 条 件 为 


get_empty_page (address) ; // 压 栈 时 申请 空 内 页 面 


return; 


ee 


这 是 因为 tmp > =current- >end_data 条 件 成 立 
了 ， 此 时 程序 在 线性 地 址 空间 中 执行 到 的 线性 地 
址 值 已 经 大 于 进程 的 end_data 地 址 。 因 此 ， 接 下 


来 调用 get_empty_page () 男 数 去 执行 。 这 次 并 
会 将 任何 外 设 的 数据 加 载 入 页 面 ， 压 栈 也 会 产 
生 缺 页 中 断 ， 但 跟 外 设 上 的 数据 量 无 关系 。 


进入 get_empty_page () Waa, Mee 
Ta aR A OUT, FRR FT RE str HERS 
的 线性 地 址 空间 内 。 执 行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 

void get_empty_page (unsigned long address) 
{ 

unsigned long tmp; 


if (! (tmp=get free page () ) ||! put_page (tmp,address) ) {// 
申请 页 面 及 映射 到 str1 的 线性 地 址 空间 内 


free_page (tmp) ; /*0 is ok-ignored*/ 
oom () ; 


} 


5.str1 程 序 继续 执行 ， 反复 压 栈 并 产生 缺 页 中 
ET 


程序 继续 执行 ， 如 此 反复 进行 “ 庄 栈 ~ 如 采 表 
PALKO > aR OT PE > 分配 物理 内 存 ~ 讨 
栈 .……” 操 作 。 当 第 n 次 调用 foo 函 数 时 ， 用 户 进程 
栈 与 物理 内 存 的 映射 天 系 如 多 6-18 所 示 。 请 大 家 
注意 庄 栈 数据 在 内 存 页 面 上 的 变化 情况 。 


Ox00g00  Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFF 


0300000 0x9FFFF 0xFFFFF OxSFFFFE OxSFI 


seepi? 


0x00900 Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF 
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6-18 strl 程 序 不 断 压 栈 的 效果 
6.str1 程 序 运行 结束 后 清 栈 


程序 执行 完毕 ，foo 画 数 到 达 递 归 的 终止 点 返 
E] (if (n==0) return 0) 。 这 时 由 于 函数 返回 导 
POHE TR, ESPRE (高 地 址 ) 收缩 ， 用 户 进 
程 实际 使 用 的 栈 空间 就 变 小 了 人。 既然 栈 已 经 变 

小 ， 那 么 之 前 映射 到 栈 的 线性 地 址 空间 的 物理 页 
面 就 应 该 被 释放 掉 。 但 我 们 从 代码 分 析 和 测试 中 
都 发 现 ，Linux 0.11 内 核 并 没有 释放 该 物理 页 面 。 
理由 是 这 样 的 : 进程 执行 的 时 候 内 核 不 在 执行 状 
态 ， 进 程 执行 过 程 中 废弃 的 页 面 ， 内 核 无 法 时 时 
仿 测 。 而 CPU 中 没有 专门 的 功能 电路 来 管理 此 

事 ， 没 有 判断 废弃 页 面 的 硬件 触发 机 制 ， 内 核 即 


使 设计 了 清理 废弃 页 面 的 功能 ， 也 无 用 武之 地 。 
所 以 清 栈 后 的 页 面 没有 被 释放 。 


结果 如 图 6-19 所 示 。 
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6-19 str1 程 序 运 行 结束 后 清 栈 效果 示意 图 


6.3.4 str1 进 程 的 退出 


这 里 介绍 strl 进 程 的 退出 ， 包 括 运 行 过 程 中 占 
据 的 内 存 空间 如 何 释 放 ， 它 目 寻 task_struct 所 占据 
的 空间 如 何 处 理 ， 等 等 。 其 实 str1 的 退出 与 shell 进 
程 的 退出 大 体 一 致 ， 都 是 通过 调用 exit O 函数 来 
实现 的 ， 善 后 事务 处 理 完 毕 后 ， 由 父 进程 负责 将 
它 的 task_struct 所 在 的 页 面 释 放 挥 。 下 面 我 们 来 具 
体 介绍 这 一 过 程 。 


1.str1 进 程 准备 退出 


str1 进 程 调用 exit O 函数 进行 退出 ， 最 终 会 
映射 到 sys_exit O 画 数 去 执行 ， 并 调用 do_exi 
O 范 数 来 处 理 str1 进 程 退 出 的 相关 事务 。 执 行 代 
ABA F: 


/代码 路 径 : include/unistd.h: 

volatile void exit (int status) ; 

/代码 路 径 : kernel/exit.c: 

int sys_exit (int error_code) 

{ 

return do_exit ( (error_code&Oxff) <<8) ; 


} 


进程 退出 包括 两 方面 ， 第 一 ， 释 放 str1 进 程 代 
码 与 数据 所 占用 的 物理 内 存 并 解除 与 str1 这 个 可 的 
行文 件 的 关系 ， 这 一 点 由 strlj 进 程 目 己 负责 ;第 

， 释 放 str1 进 程 的 管理 结构 task_struct 所 占用 的 
物理 内 存 并 解除 与 task[64] 的 天 系 ， FAL SC 
程 shell 负 责 。 


2. 释 放 strl 程 序 所 占 页 面 


进入 do_exit () KUS, DAA 
free_page_tables () 函数 将 strl1 程 序 占用 的 页 面 释 
放 掉 ， 包 括 前 面 提 到 的 已 清 栈 但 尚未 释放 的 内 存 
页 面 ， 并 将 管理 这 些 页 面 的 页 表 以 及 页 目录 项 释 
放 掉 。 这 些 页 面 中 仍然 保存 着 strl1 进 程 的 垃圾 数 
据 ， 但 解除 了 映射 关系 ，str1 进 程 将 无 法 找到 这 些 
页 面 。 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 
int do_exit (long code) 

{ 

int 1; 


free page tables (get_base (current->Idt[1]) , get limit 


(0x0f) ) ; /释放 str1 代 码 段 所 占用 的 页 面 


free _page_tables (get_base (current->1dt[2]) , get limit 


(0x17) ) ; /释放 str1 数 据 段 所 占用 的 页 面 


for (i=0; i<NR TASKS; i++) 


if (task[i]& &task[i]- > father==current-> pid) { 
task[i|- > father=1; 

if (task[i]-> state-=TASK_ZOMBIE) 
/*assumption task[1]is always init*/ 


(void) send_sig (SIGCHLD,task[1], 1) ; 


释放 过 程 如 图 6-20 所 示 。 
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6-20 释放 str1 程 序 占 用 的 页 面 


3. 解 除 str1 程 序 与 文件 有 关 的 内 容 并 给 父 ; 


进程 


解除 该 进程 与 str1 程 序 对 应 的 可 执行 文件 的 关 
系 ， 有 具体 表现 为 先 将 与 父 进程 共享 的 文件 释放 
掉 ， 然 后 内 核 将 str1 进 程 设置 为 僵 死 状态 ， 并 给 它 
的 父 进程 shell 发送 “ 子 进程 退出 ”信号 (信和 号 处 理 
的 问题 将 在 第 8 章 中 详细 介绍 ) 。 对 应 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int do_exit (long code) 


for (i=0; i<NR_OPEN; i++) /以 下 解除 与 父 进程 共享 的 文件 
if (current-> filp[i]) 

sys_close (i) ; 

iput (current->pwd) ; 

current- > pwd=NULL; 


iput (current-> root) ; 


current- > root=NULL; 
iput (current-> executable) ; 


current- >executable=NULL; /以 上 解除 与 父 进程 共享 的 文件 


current- > state=TASK_ZOMBIE; /将 str1 设 置 为 僵 死 状态 
current- > exit_code=code; 


tell father (current-> father) ; /给 父 进程 ， 即 shel 进 程 发 信和 号 


天 系 解除 并 给 父 进程 发 信号 的 过 程 如 独 6-21 
FITZ ° 
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图 6-21 解除 str1 程 序 与 文件 有 关 的 内 容 


4.str1 程 序 退 出 后 执行 进程 调度 


到 这 里 为 止 ，str1 进 程 对 退出 所 做 的 善后 工作 
已 经 完毕 ，str1 进 程 将 切换 到 其 他 进程 去 执行 。 由 
于 现在 只 创建 了 一 个 用 户 进程 ， 所 以 现在 系统 中 


有 进程 0、 进 程 1、updataj 进 程 、shell 进 程 和 str1 这 
个 用 户 进程 。 执 行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int do_exit (long code) 


current- > state=TASK_ZOMBIE; 

current- > exit_code=code; 

tell_father (current-> father) ; 

schedule () ; /准备 切换 到 shel] 执 行 
return (-1) ; /*just to suppress warnings*/ 


} 


进程 切换 效果 如 图 6-22 所 示 。 
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Al 6-22 str1 进 程 退 出 ， 切 换 人 到 shell 进 程 


shel DÄ ERU sri Z RE S AE, BH 
设置 为 束缚 人 下， 之 后 切换 到 shell 进 程 去 执行 。 
shell 进 程 执行 进入 内 核 后 ， 内 核 将 释放 醒 str1 进 程 
task_struct 所 占用 的 页 面 ， 并 解除 str1 进 程 与 
task[64] 的 关系 ， 这 样 str1 束 彻 奈 从 系统 中 退出 
了 。 这 个 空 出 来 的 task[64] 位 置 ， 可 以 被 其 他 进程 
占用 。 占 用 了 这 个 位 置 的 进程 ， 将 具有 和 str1 相 同 
的 线性 地 址 空间 和 页 目 邓 项 。 


6.4 多 个 用 户 进程 同时 运行 


本 以 三 个 用 户 进 程 (str1、str2、str3) 为 
例 ， 来 看 看 多 个 进程 是 如 何 运 行 鸭 ， 它 们 又 是 如 
fA FRAY © 


6.4.1 ”进程 调度 
1. 依 次 创建 strt1、str2 和 str3 进 程 


我 们 假设 系统 中 疝 没 有 任何 用 户 进 程 存 在 ， 
外 设 上 有 三 个 可 执行 文件 ， 分 别 是 str1 ` str2 > 
str3， 且 文件 中 的 程序 都 与 前 面 介绍 的 str1 进 程 的 
代码 一 致 。 在 此 前 担 下 ， 我 们 依次 创建 三 个 用 户 


ERE: str1 > str2 ` str3 ° 


现在 last_pid 已 经 时 加 为 4 了 ， 所 以 这 三 个 进程 
的 进程 号 应 该 依次 是 5、6、7。 现 在 task[64] 中 的 前 
四 项 已 经 秘 占 用 了 ， 所 以 这 三 个 进程 只 能 依次 从 
第 五 项 开始 写 task[64] 建 立 天 系 ， 它 们 在 task[64] 中 
的 项 号 依次 为 4、5、6。 由 此 进一步 可 以 得 出 ， 它 
们 在 线性 地 址 空间 的 位 置 应 该 依次 是 4x64~5x64 
MB ` 5x64~6x64 MB ` 6x64~7x64 MB ° 


这 三 个 进程 在 线性 空间 中 的 分 布 效果 如 图 6- 
23 所 示 。 


0 256 MB 320 MB 384 MB 448 MB 4 GB-1 
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及 数据 及 数据 及 数据 


6-23 ”str1、str2 和 和 str3 进 程 在 线性 空间 中 的 分 
布 


6-24 展现 了 三 个 进程 的 task_struact 和 压 栈 
的 数据 信息 在 物理 内 存 中 的 分 布 情况 。 
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strl 、str2 和 str3 的 
task_stract 以 及 代码 和 压 
栈 的 数据 所 在 的 页 面 


6-24 ”三 个 进程 的 task_struct 和 压 栈 数据 信息 
在 主 内 存 区 的 分 布 


2.str1 进 程 讨 栈 的 执行 效 采 


假设 现在 轮 到 str1 进 程 执 行 。str1 开 始 执行 foo 
函数 调用 ， 束 需要 压 栈 ， 于 是 产生 缺 页 中 断 。 在 
缺 页 中 断 处 理 中 ， 内 核 为 str1 进 程 申请 了 至 朵 物理 
页 面 ， 并 将 其 映射 到 str1 进 程 的 线性 地 址 空间 。 之 
后 ， 进 程 再 对 text 数 组 进行 设置 ， 内 容 吏 被 写 在 了 
刚 分 配 的 物理 页 面 上 了 ° 


执行 效 末 如 图 6-25 所 示 。 
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6-25 str1 进 程 压 栈 的 效果 


3.str1 运 行 过 程 中 产生 时 钟 中 断 并 切换 到 str2 执 


Linux 0.11 中 ， 两 种 情况 下 会 导致 进 程 切换 。 
一 种 古 由 时 钟 中 断 引 发 的 进程 切换 ， 这 与 进程 执 
行 坚 无 关系 。 无 论 是 哪个 进程 执行 ， 也 无 论 是 在 3 
等 权 级 下 执行 还 生 在 0 特权 级 下 执行 ， 时 钟 中 断 痢 
会 产生 ， 只 要 满足 切换 条 件 ， 吏 切换 。 态 一 种 是 
由 进程 执行 引起 的 中 断 。 进 程 执行 到 内 核 中 时 ， 


如 琳 执 行 了 类 似 读 硬 副 数 据 的 程序 ， 数 据 读 出 之 
前 ， 进 程 无 法 继续 执行 ， 束 应 当 将 当前 进程 挂 
起 ， 切 换 到 其 他 进程 去 执行 。 但 无 论 苹 哪 种 情况 
下 的 切换 ， 都 是 TSS 和 LDT 中 的 全 套 信 息 跟 着 进程 
走 。 下 面 先 来 看 由 时 钟 中 断 引 发 的 切换 。 


str1 在 执行 过 程 中 ， 每 10 吼 秒 就 会 产生 一 次 时 
钟 中 断 ， 这 样 束 会 是 减 它 的 时 间 片 。 我 们 在 程序 
中 调用 了 sleep () 函数 ， 以 便 起 到 延 时 的 效果 。 
这 样 当前 进程 的 时 间 片 被 痢 减 为 0 时 ， 程 序 还 没有 
执行 完 ， 此 时 要 么 下 0 特 权 级 ， 要 么 是 3 特权 级 。 
str1 进 程 一 直 在 执行 用 户 程 序 ， 特 权 级 为 3， 此 时 
WL ValHschedule () 函数 ， 准 备 进程 切换 。 代 码 
如 下 : 


// 代 人 码 路 径 : kernel/sched.c: 


void do_timer (long cpl) 


if ( (--current-> counter) >0) return; /判断 时 间 片 是 否 削 减 为 0 


current- > counter=0; 


if (! cpl) return; /只 有 在 3 特权 级 下 才能 切换 ，0 特 权 级 下 不 能 切 


schedule () ; 


} 


于 是 切换 至 进程 str2 执 行 ， 进 程 str2 也 执行 同 
样 逻辑 的 程序 。 值 得 注意 的 是 ， 当 设置 text 数 组 
时 ， 屏 幕 打印 的 逻辑 地 址 与 当时 进程 str1 的 地 址 相 
同 。 但 它们 的 线性 地 址 不 同 ， 物 理 内 存 中 进程 str2 
也 并 没有 与 strl 重 车。 


str2 执 行 压 栈 操作 的 戏 末 如 图 6-26 所 示 。 
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str2 进 程 数据 压 栈 


6-26 str2 执 行 压 栈 控 作 的 效果 


4.str2 执 行 过 程 中 遇 到 时 钟 中 断 ， 切 换 到 str3 执 


str2 执 行 一 段 时 间 后 ， 时 间 所 被 削减 为 0 后 又 
切换 到 str3 去 执行 。 它 也 要 压 栈 ，str3 开 始 运 行 ， 
执行 的 代码 与 进程 str2 相 同 ， 也 坪 压 栈 ， 并 设置 


text ° 


str3 程 序 执行 压 栈 的 戏 末 如 图 6-27 所 示 。 
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str2 进 程 已 经 strl 进 程 已 经 
压 栈 的 数据 压 栈 的 数据 
str3 进 程 数据 压 栈 


6-27 str3 执 行 压 栈 操作 的 效 来 


我 们 不 妨 对 str3 的 代码 稍 加 改动 ， 调 用 open 
O 、read () 和 close () 函数 ， 从 硬盘 上 读 文 
件 。 这 样 就 映射 到 sys_read O 画 数 中 执行 。 下 达 
读 盘 指令 后 ， 数 据 不 会 马上 进入 缓冲 区 。 没 有 数 
据 ，str3 束 不 能 继续 执行 。 这 时 候 它 会 主动 地 将 目 
己 挂 起 ， 然 后 切换 到 其 他 进程 去 执行 。 代 码 如 
Ti 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * bread (int dev,int block) 


{ 

struct buffer_head * bh; 

if (! (bh=getblk (dev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 

return bh; 

ll_rw_block (READ,bh) ; 


wait _on_buffer (bh) ; // 检 查 是 否 需要 等 待 缓冲 块 解锁 而 将 进程 
挂 起 


if (bh->b_uptodate) 

return bh; 

brelse (bh) ; 

return NULL; 

} 

static inline void wait_on_buffer (struct buffer_head * bh) 
{ 

di Q ; 


while (bh->b_lock) 


sleep _on (&bh->b_wait) ; /缓冲 块 此 时 还 在 加 锁 ， 所 以 需要 将 
进程 挂 起 


sti () ; 


} 


void sleep_on (struct task_struct ** p) 


tmp=*p; 
*p=current; 


current- > state=TASK_ UNINTERRUPTIBLE; /将 当前 进程 挂 起 ， 
此 时 挂 起 的 是 str3 


schedule O ; /切换 到 其 他 进程 去 执行 
if (tmp) 
tmp- > state=0; 


} 


5. 三 个 程序 执行 一 段 时 间 后 在 主 内 存 的 分 布 格 
局 


str3 执 行 一 段 时 间 后 ， 时 间 片 也 用 完了 。 这 样 
三 个 用 户 进程 虽然 还 需要 继续 执行 ， 但 时 间 卢 都 
用 完了 。 当 再 发 生 时 钟 中 断 时 ，do_timer O 函数 
调用 schedule O 函数 进行 进程 切换 ， 这 时 ， 内 核 
会 为 它们 重新 分 配 时 间 厂 。 


内 核 从 task[] 的 末端 开始 重新 给 当前 系统 的 所 
有 进程 (包括 处 于 睡眠 的 进程 ， 但 进程 0 除外 ) 分 
配 时 间 刻 。 时 间 厂 的 大 小 为 counter/2+priority ° 
priority 是 进程 的 优先 级 ， 所 以 进程 的 优先 级 越 高 
(priority ERAK) ， 分 配 到 的 时 间 片 就 越 多 。 然 
后 根据 此 时 时 间 片 的 情况 重新 选择 进程 运行 ， 如 
此 反复 进行 。 执 行 代码 如 下 : 


// 代 人 码 路 径 : kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p> &FIRST_TASK; --p) 


(*p) ->counter= ( (*p) ->counter>>1) + 
(*p) -> priority; 


这 里 值得 注意 的 是 ， 重 新 分 配 时 间 厂 时 ， 并 
不 需要 给 进程 0 进行 分 配 。 这 是 因为 ， 只 要 系统 中 
所 有 进程 都 暂时 不 具备 执行 条 件 ， 束 目 动 切 换 到 
进程 0 去 执行 。 进 程 0 将 一 直 执 行 下 去 ， 即 便 在 此 
过 程 中 它 的 时 间 厂 章 减 为 0 了 ， 但 由 于 还 没有 可 以 
运行 的 进程 ， 所 以 仍然 需要 进程 0 继续 执行 。 这 样 
一 来 ， 时 间 片 对 进程 0 来 讲 就 没有 意义 了 。 可 见 ， 


进程 0 是 一 个 特殊 的 进程 ， 它 的 执行 古 由 系统 当前 
的 留守 需求 决定 的 ， 时 间 厂 轮转 这 套 机 制 并 不 适 
To? 


oH 


接着 它们 都 会 继续 不 断 地 压 栈 ， 通 过 图 6-28 
我 们 可 以 看 出 这 一 点 。 这 三 个 用 户 进程 在 线性 地 
空间 内 压 入 它们 各 自 的 栈 中 的 数据 都 是 连续 
的 ， 但 在 物理 空间 内 压 栈 的 数据 却 是 完全 " 交 

错 " 分 布 的 。 


三 个 程序 执行 一 段 时 间 后 ， 压 入 它们 各 目的 
栈 中 的 数据 在 主 内 存 区 中 的 分 布 如 图 6-28 所 示 。 
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图 6-28 三 个 程序 执行 一 段 时 间 后 压 栈 数据 在 
主 内 存 区 的 分 布 


不 难 发 现 ， 任 何 时 刻 都 只 有 一 个 进程 在 执 
行 ， 根 本 不 存在 多 个 进程 同时 执行 的 情况 (所谓 
多 进程 同时 执行 ， 只 是 人 的 主观 感受 ) 。 数 据 不 
会 彼此 和 覆盖 ， 而 且 无 论 由 于 哪 种 情况 产生 进程 切 
换 ， 都 通过 调用 schedule () 函数 来 进行 切换 。 这 
个 函数 进行 进程 切换 ， 束 会 用 TSS 和 LDT 全 套数 据 
跟着 进程 走 ， 以 此 实现 对 进程 的 保护 。 


6.4.2 ”页 写 傈 护 
1. 进 程 A 和 进程 B 共 享 页 面 


假设 现在 系统 有 一 个 用 户 进程 (进程 A) ， 
它 目 己 对 应 的 程序 代码 已 经 载 入 内 存 中 ， 此 时 该 
进程 内 存 中 所 占用 的 页 面 引用 计数 都 为 “1”"， 接 下 
来 它 开始 执行 ， 通 过 调用 fork 函 数 创建 一 个 新 进 
程 GHB)  。 在 新 进程 创建 的 过 程 中 ， 系 统 将 
进程 A 的 页 表 项 全 部 复制 给 进程 B 并 设置 进程 B 的 
页 目录 项 。 此 时 这 两 个 进程 束 共 至 页 面 ， 修 共 持 
页 面 的 引用 计数 累加 为 2， 并 将 此 共享 页 面 全 部 设 
置 为 “只 读 ” 属 性 ， 即 无 论 是 进程 A 还 是 进程 B， 部 
只 能 对 这 些 共 至 的 页 面 进行 读 操 作 ， 而 不 能 是 写 


控 作 。 执 行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


int copy_page_tables (unsigned long from,unsigned long to,long 
size) 


for (; nr-->0; from_page_table++, to_page tablet++) { 
this _page=*from_page_table; 

if (! (1&this_page) ) 

continue; 

this_page&=~2; /进程 A 对 页 面 的 操作 属性 被 设置 为 只 读 


*to_page_table=this_page; /进程 A 对 页 面 的 操作 属性 也 被 设置 为 


只 读 
if (this page > LOW_MEM) { 
*from_page_table=this_page; 
this _page-=LOW_MEM; 


this_page > >=12; 


mem _map[this_page]++; /引用 计数 记录 在 mem_map 中 ， 累 加 为 2 


页 面 共 至 的 情况 如 图 6-29 所 示 。 
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Al 6-29 进程 A 与 进程 B 共 享 页 面 的 情 ; 


2. 进 程 A 准 备 进行 压 栈 操作 


我 们 假设 接 下 来 轮 到 进程 A 执 行 ， 而 且 进程 A 
接 下 来 的 动作 是 一 个 压 栈 动作 ， 现 在 看 看 会 发 生 
什么 。 


现在 进程 A 的 程序 对 应 的 所 有 页 面 都 是 只 读 
状态 的 。 这 束 意 味 着 ， 无 论 是 代码 所 占用 的 页 
面 ， 还 是 原先 压 栈 的 数据 所 对 应 的 页 面 ， 都 只 能 
进行 读 操 作 ， 不 能 进行 写 操 作 。 然 而 ， 压 栈 动作 
无 疑 是 一 个 写 操作 ， 压 栈 时 对 应 的 线性 地 址 值 经 
过 解析 后 肯定 会 映射 到 只 读 页 面 中 ， 束 会 产生 一 
个 “页 写 保护 ”中 断 ， 如 图 6-30 所 示 。 
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Al 6-30 ”进程 A 准备 执行 压 栈 动作 
3. 进 程 A 的 压 栈 动作 引发 页 面 写 你 扩 


“页 写 保护 ”中 断 对 应 的 服务 程序 古 
un_wp_page () KAG KONTI, ZEEN 
存 中 申请 一 个 空闲 页 面 以 后 我 们 称 之 为 新 页 
面 ) ， 以 便 备份 刚才 压 栈 的 位 置 所 在 页 面 (以 后 
我 们 称 之 为 原 页 面 ) 的 全 部 数据 ， 然 后 将 原 页 面 
的 引用 计数 减 1。 这 征 因 为 ， 原 页 面 中 的 数据 即将 
Reel ST, WREATH Reg F 


操作 数据 ， 而 不 再 需要 与 原 页 面 维持 关系 了 ， 所 
以 原 页 面 的 引用 计数 减 1° 执行 代码 如 下 : 


/代码 路 径 : mm/memory.c: 


void un_wp_page (unsigned long * table_entry) 


if (! (new_page=get_free page () ) ) /申请 到 新 页 面 
oom () ; 
if (old_page >=LOW_MEM) 


mem _map[MAP_NR (old_page) ]--; /页 面 引用 计数 递减 1 


执行 页 写 保 护 操作 为 进程 A 新 申请 一 个 页 面 
之 后 的 主 内 存 分 布 如 图 6-31 所 示 。 
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6-31 为 进程 A 痢 申请 一 个 页 面 存储 压 栈 数据 


值得 注意 的 是 ， 这 里 只 是 将 原 页 面 的 引用 计 
数 减 1， 而 并 没有 彻 确 释放。 这 古 因 为 在 整个 操作 
系统 中 ， 所 有 可 能 被 多 个 进程 所 共用 的 资产， 比 
HOOP TU > FERRI AES, iB 
要 通过 引用 计数 来 表示 它们 被 使 用 的 状况 。 当 一 
个 进程 与 它们 解除 天 系 后 ， 其 他 进程 未 必 痢 与 它 
们 解除 了 关系 ， 简 单 的 “释放 ?十 不 行 的 。 


4. 将 进程 A 的 页 表 指 癌 新 申请 的 页 面 


新 页 面 虽 然 申 请 到 了 ， 但 此 时 进程 A 的 页 过 
中 与 原 页 面 对 应 的 页 表 项 还 是 指 癌 原 页 面 ， 没 有 
页 表 项 与 页 面 对 应 ， 最 终 还 是 无 法 找到 物理 地 址 
的 。 所 以 ， 现 在 还 需要 让 进程 A 的 页 表 中 指向 原 
页 面 的 页 表 项 改 为 指 癌 狐 页 面 ， 并 将 其 使 用 的 属 
性 从 “只 人 坪 ”改变 为 “可 读 可 写 ”"， 这 样 进程 A 才 具 备 
了 在 狐 页 面 中 人 处理 数据 的 能 力 。 执 行 代码 如 下 : 


// 代 码 路 径 : mm/memory.c: 


void un_wp_page (unsigned long * table_entry) 


ee ee 


if (old_page > =LOW_MEM) 


mem _map[MAP_NR (old page) ]--; 


*table_entry=new_page|7; /7 的 二 进 制 形 式 为 111， 标 志 着 新 页 面 
可 读 可 写 了 


invalidate () ; 


copy _page (old_page,new_page) ; 


} 


此 操作 执行 完毕 后 ， 进 程 A 新 分 配 的 页 面 所 
处 的 状态 如 图 6-32 所 示 
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Al 6-32 ”将 进程 A 的 页 表 与 狐 申 请 页 面 对 应 


5. 复 制 原 页 面 内 容 到 进程 A 新 申请 的 页 面 


ka sie, BLA DCRR PAYA A 
复制 到 新 页 面 中 了 。 复 制 之 后 ， 进 程 A 束 可 以 在 
新 页 面 中 完成 这 个 压 栈 动作 了 。 执 行 代码 如 下 : 


// 代 码 路 径 : mm/memory.c: 


void un_wp_page (unsigned long * table_entry) 


if (old_page>=LOW_MEM) 

mem _map[MAP_NR (old page) ]--; 
*table_entry=new_pagel7; 

invalidate () ; 


copy _page (old_page,new_page) ; /这 里 把 原 页 面 的 数据 复制 到 
新 页 面 ， 供 进程 A 使 用 


} 


复制 操作 完成 后 ， 进 程 A 新 申请 的 内 存 页 面 
中 的 存储 情况 如 图 6-33 所 示 。 
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A 6-33 将 原 页 面 内 容 复 制 到 进程 A 新 申请 的 页 
面 


6. 进 程 B 准 备 操作 共 孚 页 面 


进程 A 执 行 一 段 时 间 后 ， 吏 该 轮 到 它 的 子 进 
程 一 一 进程 B 执 行 了 。 进 程 B 仍 然 使 用 看 原 页 面 。 


假设 也 要 在 原 页 面 中 进行 写 操作 ， 但 十 现在 原 页 
面 的 属性 仍然 是 “只 读 ” 的 ， 这 一 扣 在 进程 A 创建 
进程 B 时 束 是 这 样 设置 的 ， 一 直 部 没有 改变 过 。 
所 以 在 这 种 情况 下 ， 叉 需要 进行 页 写 保 扩 处 理 ， 
仍然 是 映射 到 un_wp_page O 函数 中 。 由 于 原 页 
面 的 引用 计数 已 经 个 曾 减 为 1 了 ， 所 以 现在 束 要 将 
原 页 面 的 属性 设置 为 “可 读 可 写 ”， 执 行 代码 如 
i; 


/代码 路 径 : mm/memory.c: 


void un_wp_page (unsigned long * table_entry) 


ee 


old _page=Oxfffff000 & *table_entry; 


if (old_page > =LOW_MEM& &mem_map[MAP_NR | 
(old_page) J==1) {/ 发 现 原 页 面 引 用 计数 为 1， 不 用 共享 了 


*table_entry|=2; /2 的 二 进 制 形 式 为 010，R/W 位 议 置 为 1， 可 读 可 


invalidate () ; 


return; 


or 


进程 A 和 进程 B 在 压 栈 数 据 的 处 理 方面 可 以 各 
目 操 作 不 同 的 页 面 了 。 这 些 页 面 都 是 可 读 可 写 
的 ， 而 且 引 用 计数 都 为 1， 以 后 彼此 都 不 会 于 扰 对 
方 ， 如 图 6-34 所 示 。 


现在 进程 B 并 没有 自己 的 程序 。 如 果 将 来 它 
有 了 自己 的 程序 ， 就 会 和 原 页 面 解除 关系 ， 原 页 
面 的 引用 计数 将 会 继续 减 1， 于 是 就 变 成 0， 系 统 
将 认定 它 为 "空闲 页 面 " 。 
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7. 假 设 进 程 B 先 执行 压 栈 操作 的 情况 


我 们 重新 假设 ， 现 在 不 是 父 进程 一 进程 A 
先 执行 ， 而 是 子 进程 一 进程 B 先 执行 ， 那 么 又 
会 出 现 什 么 情况 呢 ? 


这 种 情况 与 前 面 所 述 的 情况 是 对 称 的 ， 即 系 
统 完 为 进程 B 申 请 一 页 面 空间 ， 然 后 让 进程 B 的 页 
表 中 与 原 页 表 相 对 应 的 页 表 项 指 癌 新 页 面 ， 最 后 


将 原 页 面 内 容 复制 给 新 页 面 ， 以 便 进 程 B 操 作 。 
等 轮 到 进程 A 执行 时 ， 原 页 面 被 设置 为 “可 读 可 
写 ”"， 使 进程 A 仍然 使 用 原 页 面 执行 数据 操作 。 


进程 B 先 执行 压 栈 操作 时 的 内 存 分 布 如 图 6-35 
pras 
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Al 6-35 进程 B 先 执行 压 栈 操作 时 的 内 存 分 布 


值得 注意 的 是 ， 页 写 保护 是 一 个 由 内 核 执 行 
的 动作 ; 在 整个 页 写 保 护 动作 发 生 的 过 程 中 ， 用 


尸 进程 仍然 正常 执行 ， 它 并 不 知道 目 己 在 内 存 中 
秘 复 制 了 ， 也 不 知道 目 己 被 复制 到 哪个 页 面 了 。 


mo 


从 前 面 的 讲解 、 分 析 ， 可 以 看 出 ， 在 Linux 
0.11 (准确 地 说 是 UNIX 体 系 ) 的 设计 者 看 来 ， 所 
请 的 操作 系统 就 是 若干 正在 操作 的 进程 构成 的 系 
统 ， 所 谓 内 核 只 是 进程 的 延续 (所 以 才 有 用 户 
态 、 内 核 态 的 说 法 ) ， 这 是 他 们 的 设计 指导 思 
想 。 这 个 指导 思想 可 以 很 好 地 解释 大 部 分 问题 。 
但 为 进程 划分 线性 地 址 空间 、 分 页 、 时 钟 中 断 触 
发 的 进程 调度 ..….... 这 些 用 “延续 说 ”不 太 容 易 完 全 


WERE RE 。 


站 


> 


我 们 将 在 本 书 的 第 9 章 竹 试 提出 我 们 的 设计 指 


已 
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6.5 ”本章 小 结 


本 章 征 全 书 中 难度 较 大 的 一 章 ， 详 细 讲 解 了 
线性 地 址 、 分 页 、 进 程 调度 以 及 一 个 用 户 进 程 从 
创建 到 退出 的 完整 过 程 和 同时 运行 多 个 用 户 进 
程 。 


其 中 最 难 理解 的 是 线性 地 址 的 部 分 。 线 性 地 
址 的 设计 思路 体现 在 代码 的 字里行间 ， 所 以 看 似 
简单 ， 实 际 很 难 掌握 。 理 解 线性 地 址 需要 整体 思 
考 操 作 系统 各 部 分 间 的 关系 ， 要 有 想象 力 ， 可 以 
襄 对 线性 地 址 理解 的 深度 祖 当 程度 上 影响 对 操作 
系统 的 理解 水 平 。 


与 线性 地 址 类 似 ， 分 页 机 制 的 规则 似乎 也 不 
复杂 ， 但 是 涉及 操作 系统 内 核 和 用 户 进程 运行 的 


很 多 方面 ， 加 之 与 线性 地 址 的 紧密 关系 ， 使 得 分 
页 也 是 比 较 难 以 筝 握 的 。 


Linux 操 作 系 统 设计 着 默 认 内 核 是 进程 的 延 

， 所 以 深入 理解 、 苞 握 用 户 进 程 运行 的 全 过 程 
及 多 进程 同时 运行 时 的 进程 调度 ， 对 理解 、 掌 握 
Linux 操 作 系 统 至 天 重要 。 


第 7 草 ”缓冲 区 和 多 进程 操作 文件 


前 面 的 章节 已 经 讲解 了 进程 、 文 件 系 统 、 
存 管理 。 从 这 些 讲解 中 我 们 能 够 感受 到 绥 冲 区 檬 
跨 二 着 ， 作 用 非常 重要 。 要 想 深 刻 理解 操作 系 
统 ， 深 刻 理 解 进程 、 文 件 系 统 、 内 存 管理 之 间 的 
复杂 关系 ， 必 须要 搞 清 楚 缓 促 区 的 作用 究竟 古 什 
入 。 


7.1 缓冲 区 的 作用 


要 想 清 芭 缓 冲 区 的 作用 冤 竟 是 什么 ， 不 妨 反 
过 来 思考 : 没有 缓冲 区 行 不 行 ? 没有 缓冲 区 会 遇 
到 什么 麻烦 ? 


从 计算 机 的 物理 层面 上 看 ， 缓 冲 区 坪 在 物理 
内 存 中 开辟 的 一 块 空间 ， 这 块 内 存 空间 的 物理 性 
质 与 进程 所 占 的 内 存 空间 没有 什么 本 质 的 不 同 。 
块 设备 (为 了 方便 ， 本 章 只 讨论 硬盘) 与 缓冲 区 
交互 数据 同 便 盘 与 进程 内 存 空间 交互 数据 从 物理 
层面 上 看 完全 相同 ， 既 不 会 影响 交互 数据 的 正确 
性 ， 也 不 会 影 啊 交互 数据 的 传输 速度 。 从 这 个 角 
度 看 ， 没 有 缓冲 区 没有 什么 不 可 以 ， 完 全 可 以 实 
现 进 程 与 便 盘 的 数据 交互 。 


FCAT I, HR Ne, WTP IK 
一 定 是 为 了 使 操作 系统 运行 地 更 好 ( 锦 上 添 


化 ) 


化 


设计 组 促 区 究 苋 能 给 操作 系统 的 运行 市 来 哪 


HEE 


我 们 认为 主要 体现 在 两 方面 : 


1) 形成 所 有 块 设备 数据 的 统一 集散 地 ， 操 作 
AMT ENE BE ° 


2) 对 块 设备 的 文件 操作 运行 效率 更 高 。 


第 1 方面 比较 容易 理解 ， 第 2 方面 是 理解 操作 
系统 的 难点 之 一 。 所 以 ， 这 一 章 我 们 将 通过 两 个 
多 进程 操作 文件 实例 ， 详 细 讲解 缓冲 区 在 提高 志 
设备 操作 文件 运行 效率 方面 的 设计 。 


仔细 观察 图 7-1， 可 以 发 现 这 里 面 似乎 有 一 个 
问题 ， 进 程 内 存 空间 与 缓冲 区 内 存 空 间 是 同样 的 
内 存 。 进 程 内 存 空间 与 便 盘 区 换 数 据 的 时 候 ， 中 
间 加 上 上 一 个 缓冲 区 ， 只 会 增加 一 次 数据 在 内 存 中 
倒 手 的 时 间 ， 而 这 次 数据 倒 手 没有 任何 数据 处 


理 ， 只 是 何 旱 的 倒 手 ， 应 该 只 会 增加 对 CPU 资 源 
的 请 耗 ， 怎 么 会 比 进程 直接 与 便 盘 交换 数据 还 快 
呢 ? 


进程 | 。 | 进程 | | 进程 | | 进程 | | 进程。 | 进程 
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块 设备 块 设备 块 设备 


7-1 进程、 缓冲 区 、 块 设备 的 格局 图 


快 的 原因 是 缓冲 区 的 共 圣 。 在 计算 机 中 ， 内 
存 与 内 存 的 数据 交互 的 速度 是 内 存 与 便 僵 数据 区 
互 速 度 的 2 个 量 级 。 如 果 A 进 程 从 硬盘 读 到 缓冲 区 
的 数据 ， 恰 好 也 是 B 进 程 需要 读 取 的 ，B 进 程 束 不 
用 从 人 硬盘 读 取 ， 可 以 直接 从 缓冲 区 中 该 取 ，B 进 


程 所 花费 的 时 间 大 约 只 有 A 进 程 读 取 这 个 数据 的 
百 分 之 一 。 效 率 一 下 子 提高 了 2 个 量 级 。 如 果 还 有 
C 进 程 、D 进 程 、E 进 程 ..…. 恰 好 都 需要 读 取 这 个 
数据 ， 计 算 机 的 整体 效率 就 会 大 大 提高 。 这 是 组 
冲 区 共 至 的 一 种 模式 ， 就 是 不 同 进程 之 间 共 享 组 
冲 区 中 的 数据 。 如 果 A 进 程 读 取 、 使 用 完 这 个 数 
据 ， 过 了 一 段 时 间 需 要 再 一 次 读 取 这 个 数据 ， 此 
时 这 个 数据 还 停留 在 缓冲 区 ，A 进 程 就 可 以 直接 
从 缓冲 区 中 读 取 ， 不 需要 花费 100 倍 的 时 间 从 硬 僵 
上 读 了 到。 这 是 共享 的 另 一 种 模式 ， 束 是 同一 个 进 
程 在 不 同时 间 多 次 共享 缓冲 区 中 的 同一 个 数据 。 
再 有 就 是 这 两 种 模式 的 组 合 模式 。 以 上 分 析 的 是 
读 操作 的 共享 。 写 操作 的 共享 与 此 类 似 。 


仔细 思考 上 面 的 分 析 ， 可 以 故 现 ， 要 想 通过 
缓冲 区 的 设计 提高 操作 系统 谈 写 文件 的 整体 效 
率 ， 束 应 该 尽 可 能 多 地 共 至 绥 冲 区 中 的 数据 。 而 
尽 可 能 多 地 共 至 组 促 区 中 的 数据 ， 最 有 效 、 最 直 
接 的 方法 就 古 让 缓冲 区 中 的 数据 在 缓冲 区 中 停留 
的 时 间 尽 可 能 长 ! 
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何 保证 数据 交互 的 正确 性 、 如 何 让 数据 在 缓冲 区 
中 停留 的 时 间 尽 可 能 长 来 设计 的 。 本 章 后 续 的 内 
容 将 通过 两 个 实例 ， 详 细 讲 解 操 作 系 统 代码 是 如 
何 实现 “让 数据 在 绥 冲 区 中 集 留 的 时 间 尽 可 能 
RaT A PRAY 


7.2 ”缓冲 区 的 总 体 结 构 


缓冲 区 涉及 进程 、 和 内存、 文件， 内容 很 多 ， 
代码 庞 水 ， 很 不 容易 看 全 ， 征 理解 操作 系统 的 难 
反之 一 。 为 了 更 好 地 学 习 、 笛 握 绥 促 区 的 设计 ， 
我 们 先 作 有 虞 缓冲 区 的 忌 体 结 构 ， 如 图 7-2 所 示 。 
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7-2 ”缓冲 区 、buffer_head、request 的 格局 图 


在 Linux 损 作 系 统 中 ， 为 缓冲 区 配套 地 设计 了 
两 个 非常 重要 的 管理 信息 : buffer_ head、 
request。 其 中 buffer_head 主 要 负责 进程 与 缓冲 区 
中 的 缓 促 块 的 数据 交互 ， 在 确保 数据 交互 正确 的 
前 提 下 ， 让 数据 在 组 促 区 中 保留 的 时 间 尽 可 能 
长 ;request 主要 负责 缓冲 区 中 的 数据 与 块 设备 之 
间 的 数据 交互 ， 在 确保 数据 交互 正确 的 前 提 下 ， 
尽 可 能 及 时 地 将 进程 修改 过 的 缓冲 块 中 的 数据 同 
步 到 块 设备 上 。 


这 两 个 管理 信息 的 数据 结构 代码 如 下 : 


/代码 路 径 : include/linux/fs.h: 
struct buffer_head{ 
char * b_data; /*pointer to data block (1024 bytes) */ 


unsigned long b_blocknr; /*block number*/ 


unsigned short b_dev; /*device (0=free) */ 
unsigned char b_uptodate; 

unsigned char b_dirt; /*O-clean, 1-dirty*/ 
unsigned char b_count; /*users using this block*/ 
unsigned char b_lock; /*0-ok, 1-locked*/ 
struct task_struct * b_wait; 

struct buffer_head * b_prev; 

struct buffer_head * b_next; 

struct buffer_head * b_prev_free; 

struct buffer_head * b_next_free; 

ie 

/代码 路 径 : kernel/blk_drv/blk.h: 

struct request{ 

int dev; /*-1 if no request*/ 

intcmd; /*READ or WRITE*/ 

int errors; 


unsigned long sector; 


unsigned long nr_sectors; 
char * buffer; 

struct task_struct * waiting; 
struct buffer_head * bh; 
struct request * next; 


ie 


下 面 将 详细 讲解 为 什么 要 设计 这 个 数据 结 
构 ， 以 及 这 个 数据 结构 是 如 何 做 到 “让 数据 在 组 促 
区 中 保留 的 时 间 尽 可 能 长 ”的 。 


7.3 b_dev、b_blocknr 及 request 的 作用 


b_dev 和 b_blocknr 这 两 个 字段 是 buffer_head 结 
构 中 非常 重要 的 两 个 字段 ， 是 绥 冲 区 文 持 多 进程 

共享 文件 的 基础 。 它 们 既是 正确 性 的 基础 ， 又 
是 “让 数据 在 缓冲 区 中 集 留 的 时 间 尽 可 能 长 ”的 基 
础 。 下 面 完 来 介绍 这 两 个 字段 是 如 何 确 你 正确 性 
的 。 


7.3.1 保证 进程 与 缓冲 块 数据 交互 的 正确 
性 


进程 与 缓冲 区 不 是 以 文件 为 单位 、 而 是 以 组 
镍 块 为 单位 进行 数据 交互 的 ， 一 次 区 互 看 干 个 
RR, BOER AE SAHRA SA TERIA o 


缕 冲 区 与 价 副 的 交互 也 十 以 绥 仲 块 为 单位 的 ， 而 
且 缓冲 块 与 便 盘 块 的 单位 大 小 一 致 。 进 程 操 作文 
件 时 ， 由 进程 近 出 的 文件 操作 请 求 ， 最 终 由 操作 
系统 落实 到 与 重型 上 具体 茶 个 效 据 块 进行 灾 互 。 
有 了 缓冲 区 ， 进 程 和 硬盘 上 的 数据 块 不 是 直接 区 
互 效 据 ， 而 征 通过 缓冲 块 再 进行 交互。 你 证 数据 
交互 的 正确 性 ， 首 移 要 你 证 硬盘 上 的 数据 块 与 缓 
镍 块 必须 产 格 对 应 。 


因为 硬盘 的 设备 号 、 块 号 能 唯一 确定 便 表 
块 ， 第 2 章 讲解 过 每 一 个 缓冲 块 都 有 唯一 的 一 个 
buffer_head 管 理 ， 所 以 ， 操 作 系 统 采 取 的 寅 略 
是 ， 内 核 通 过 buffer_head 结 构 中 的 b_dev 和 
b_blocknr 两 个 字段 ， 把 缓冲 块 和 硬盘 数据 块 的 天 
系 绑 定 。 这 样 ， 束 保证 了 硬盘 块 与 缓冲 块 关 系 的 


唯一 性 ， 进 程 、 缓 冲 块 的 数据 交互 与 进程 、 硬 开 
效 据 块 的 数据 交互 等 价 ， 确 傈 数据 交互 不 会 出 现 
混乱 。 代 码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 

struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 
{ 

repeat: 


if (bh=get_hash_table (dev,block) ) // 如 果 发 现 缓冲 块 与 指定 设 
备 (dev) 指定 数据 块 (block) 已 经 绑 定 


return bh; /返回 ， 直 接 使 用 


tmp=free_list; /如 采 没 找到 符合 指定 标准 的 绑 定 缓冲 块 ， 了 驶 申请 
新 缓冲 块 


do{ 

if (tmp->b_count) 

continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 


bh=tmp; 


if (! BADNESS (tmp) ) 

break; 

/*and repeat until we find something good*/ 

while ( (tmp=tmp- > b_next_free) ! =free list) ; 


ee ee 


/*OK,FINALLY we know that this buffer is the only one of it's kind, 
my 


/*and that it's unused (b count=0) , unlocked (b lock=0) , and 
clean*/ 


bh->b_count=1; 
bh- > b_dirt=0; 
bh- > b_uptodate=0; 


remove from _queues (bh) ; 


bh->b _ dev=dev，/ 对 新 缓冲 块 的 设备 号 进行 设置 
bh->b_blocknr=block; /对 新 缓冲 块 的 块 号 进行 设置 
insert _into_queues (bh) ; 


return bh; 


从 以 上 代码 中 可 以 看 出 ， 新 申请 缓冲 块 的 时 
候 丈 将 绥 冲 块 与 数据 块 的 关系 锁 死 ， 使 得 内 核 在 
进程 方 同 上 ， 只 要 将 文件 的 操作 位 置 确 定 ， 并 将 
其 转换 成 b_dev、b_blocknr 就 可 以 了 ， 硬 盘 数 据 块 
与 缓冲 块 的 关系 不 用 考虑 ， 最 终 与 硬盘 的 交互 肯 
定 是 正确 的 。 


读 文 件 时 ， 内 核 通 过 文件 操作 指针 计算 出 文 
件数 据 内 容 所 在 的 b_dev、b_blocknr， 进 程 方面 的 
延伸 到 缓冲 块 为 止 ， 执行 bread O 函数 以 后 就 不 
再 与 便 盘 数据 块 直接 打交道 了 。 代 人 码 如 下 : 


/代码 路 径 : fs/file_dev.c: 


int file read (struct m_inode * inode,struct file * filp,char * buf, int 
count) // 读 文件 


{ 


if ( (left=count) <=0) 
return 0; 
while (left) { 


if (nr=bmap (inode, (filp->f_pos) /BLOCK_SIZE) ) {// 通 过 
文件 偏 移 指 针 ， 计 算出 块 号 


if (! (bh=bread (inode->i_dev,nr) ) ) / 实 参 中 inode- >i_ dev 就 
是 设备 号 ，nr 束 是 块 号 


break; 

}else 

bh=NULL; 

nr=filp- > f_pos%BLOCK_SIZE; 


chars=MIN (BLOCK_SIZE-nrleft) ; 


ee ee 


ee ee 


/代码 路 径 : fs/buffer.c: 


struct buffer_ head * bread (int dev,int block) / 读 取 底层 块 设备 数据 
{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) // 申 请 缓冲 块 时 要 用 到 设备 号 
和 块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 
return bh; 


与 读 文 件 类 似 ， 写 文件 时 ， 内 核 通 过 文件 操 
作 指 针 计 算出 文件 数据 内 容 所 在 的 b_dev 和 
b_blocknr， 进 程 方面 的 延伸 到 此 为 目 。 代 码 如 
F: 


// 代 码 路 径 : fs/file_dev.c: 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 


count) // 写 文件 { 
if (filp->f_flags&O_APPEND) 
pos=inode- > i_size; 
else 
pos=filp- > f_pos; 
while (i<count) { 


if (!  (block=create_block (inode,pos/BLOCK_SIZE) ) ) /通过 
文件 偏 移 指针 ， 计 算出 块 号 


break; 


if (! (bh=bread (inode->i_dev,block) ) ) // 实 参 中 inode-> 
i_dev 束 是 设备 号 ，nr 就 是 块 号 


break; 
c=pos%BLOCK_SIZE; 
p=c+bh- > b_data; 


bh- > b_dirt=1; 


ee 


/代码 路 径 : fs/buffer.c: 
struct buffer head * bread (int dev,int block) / 读 取 底层 块 设备 数据 
{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) // 申 请 缓冲 块 时 要 用 到 设备 号 
和 块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 
return bh; 


ee 


进程 方 同 上 交互 文件 内 容 时 如 此 ， 交 互 文件 
官 理 信息 时 也 是 如 此 。 


ARE AY, oti a Sa ll eR p 
的 信息 ， 计 算出 i 点 所 在 的 b_dev 和 和 b_blocknr， 
而 不 会 路 过 缓冲 块 和 直接 操 作 人 硬盘 数据 块 。 代 人 码 如 
下 : 


// 代 码 路 径 : fs/inode.c: 


static void read_inode (struct m inode * inode) // 读 节点 


lock inode (inode) ; 
if (! (sb=get_super (inode->i_dev) ) ) 
panic ("trying to read inode without dev") ; 


«aH 


block=2+sb->s_imap_blocks+sb- >s_zmap_blocks+//i#Wi T 3.5 40 
超级 块 信息 ， 确 定 了 block (ER) 


(inode- >i num-1) /INODES PER BLOCK: 


if (! (bh=bread (inode->i_dev,block) ) ) V/ 实 参 中 inode- > 
i devis, nýa 


panic ("unable to read i-node block") ; 
* (struct d_inode *) inode= 
( (struct d_inode *) bh->b data) 


[ (inode->i_num-1) %INODES PER BLOCK]; /从 缓冲 块 中 提 
Rit, #%Ainode_table[32] 


brelse (bh) ; 

unlock _inode (inode) ; 

} 

/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread (int dev,int block) V 读 取 底 层 块 设备 数据 
{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) // 申 请 缓冲 块 时 要 用 到 设备 号 
和 块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 
return bh; 


FANART RRM, MSATA, M 
iD AS RRR PA, TPR PER 
b_dev 和 b_blocknr， 动 作 到 此 为 止 。 代 码 如 下 : 


/代码 路 径 : fs/inode.c: 


static void write _ inode (struct m_inode * inode) / 写 i 节 点 


if (! (sb=get super (inode->i_dev) ) ) 
panic ("trying to write inode without device") ; 


block=2+sb->s_imap_blocks+sb- >s_zmap_blocks+/i#Wi T 3.5 40 
超级 块 信息 ， 确 定 了 block (ER) 


(inode- >i num-1) /INODES PER BLOCK: 


if (! (bh=bread (inode->i_dev,block) ) ) V/ 实 参 中 inode- > 
i_dev 束 是 设备 号 ，nr 就 是 块 号 


panic ("unable to read i-node block") ; 


( (struct d_inode * ) bh- > b_ data) 
[ (inode->i_num-1) %INODES PER BLOCK]= 


* (struct d_ inode *) inode; /从 inode table[32] 中 提取 i 节点 ， 载 入 
缓冲 块 


bh- > b_dirt=1; 
inode- > i_dirt=0; 


ee 


/代码 路 径 : fs/buffer.c: 
struct buffer_head * bread (int dev,int block) / 读 取 底层 块 设备 数据 


{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) // 申 请 缓冲 块 时 要 用 到 设备 号 
和 块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 
return bh; 


同样 ， 内 核 加 载 超级 块 时 ， 通 过 传 建 下 来 的 
设备 写 和 指定 的 块 号 ， 计 算出 超级 块 、i 太 上 扩 位 
` 逻辑 块 位 图 所 在 的 bp_dev 和 b_blocknr， 动 作 延 
伸 至 此 。 人 代码 如 下 : 


/代码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) / 读 取 超级 块 


s->s_time=0; 
s->s_rd_only=0; 
s->s_dirt=0; 
lock _super (s) ; 


if (! (bh=bread (dev, 1) ) ) {//1 就 是 块 号 ， 超 级 块 是 设备 中 1 
号 数据 块 


s->s_dev=0; 

free super (s) ; 

return NULL; 

} 

* ( (struct d_super_block *) s) = 

* ( (struct d_super_block *) bh->b_data) ; 
brelse (bh) ; 

if (s->s_magic! =SUPER_MAGIC) { 
s->s_dev=0; 

free super (s) ; 


return NULL; 


block=2; /2 是 第 一 个 ji 点 位 图 的 块 号 
for (i=0; i<s->s_imap_blocks; i++) 
if (s->s_imap[i]=bread (dev,block) ) 


block++; 


else 
break; 


for (i=0; i<s-> s_zmap_blocks; i++) //block 不 断 办 加， 依据 此 
加 载 超级 块 位 


if (s->s_zmap[i]=bread (dev,block) ) 

block++; 

else 

break; 

if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) { 
for (i=0; i<ILMAP_SLOTS; i++) 

brelse (s->s_imap[i]) ; 


ee ee 


/代码 路 径 : fs/buffer.c: 
struct buffer_ head * bread (int dev,int block) / 读 取 底层 块 设备 数据 


{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 
和 块 号 

panic ("bread: getblk returned NULL\n") ; 

if (bh->b_uptodate) 


return bh; 


DA EAS 248, RETIRE, ABER 
对 应 的 设备 号 和 块 号 确定 ， 正 人 确 性 丈 有 保证 ， 
getblk () 画 数 包 扒 了 绑 定 的 工作 。 


从 便 盘 方 问 看， 内 核 通 过 万 一 个 效 据 结 构 
(request) 来 文 持 缓冲 块 与 硬盘 的 交互 ， 请 求 项 
中 设备 号 dev 和 块 的 首 忆 区 号 sector 〈 块 是 操作 系 
统 的 概念 ， 硬 盘 只 有 局 区 的 概念 ) 决定 了 数据 交 
互 的 位 置 。 而 这 两 个 字段 的 效 值 ， 也 十 通过 


buffer_head 中 b_dev 和 b_blocknr 两 个 字段 的 值 来 设 
置 的 。 这 说 明 ， 只 要 缓冲 块 的 设备 号 和 块 号 确定 
了 ， 内 核 通 过 请 求 项 与 硬盘 交互 时 ， 最 多 考虑 到 
绥 冲 区 就 足够 了 ， 不 需要 再 往 进 程 方面 迁 促 ， 去 
考虑 进程 的 文件 操作 问题 。 代 码 如 下 : 


/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 

void ll_rw_block (int rw,struct buffer_head * bh) /底层 块 设备 操作 
{ 

unsigned int major; 

if ( (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV|| 

! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 

return; 

} 


make request (majorrw,bh) ; /设置 请 求 项 


} 


static void make_request (int major, int rw,struct buffer_head * bh) 


if (req<request) { 

if (rw_ahead) { 

unlock _buffer (bh) ; 

return; 

} 

sleep_on (&wait_for_request) ; 
goto repeat; 

} 

req- > dev=bh->b_dev; /用 缓冲 块 中 的 b_dev 设 置 请 求 项 
req- > cmd=rw; 

req- > errors=0; 


req- > sector=bh- > b_blocknr< <1; // 用 缓冲 块 中 的 b_blocknr 设 置 
请 求 项 


req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 

req- > bh=bh; 

req- > next=NULL; 

add _request (major+blk_dev,req) ; /加 载 请 求 项 
} 


static void add_request (struct blk_dev_struct * dev,struct request * 


if (| (tmp=dev- > current_request) jog 

dev- > current_request=req; 

sti () ; 

(dev->request_fn) O ; /下达 硬盘 操作 命令 


return; 


ee 


/代码 路 径 : kernel/blk_drv/hd.c: 


void do_hd_request (void) 


ee 


INIT REQUEST:; 

dev=MINOR (CURRENT > dev) ; /从 请 求 项 中 获取 设备 号 
block=CURRENT > sector; /从 请 求 项 中 获取 块 号 

if (dev> =5*NR_HD||block+2 > hd[dev].nr_sects) { 

end _request (0) ; 


goto repeat; 


ee 


asm | 
("divl%4": "=a" (block) , "=d" (sec) : "0" (block) , "1" (0) , / 
/通过 块 号 /来 换算 人 役 头 、 届 区 、 柱 面 等 参数 


"r" (hd_info[dev].sect) ) ; 


— asm 
("divl%4": "=a (cyl) ; "— " (head) 。 "o" (block) ¢ sh a (0) ; 


"r" (hd_info[dev].head) ) ; 
SeC 十 十 ; 


nsect=CURRENT- > nr_sectors; 


ee 


综 上 所 述 ， 在 进程 方 各 上 ， 任 何 复杂 的 文件 
操作 ， 比 如 对 文件 任意 部 分 修改 、 插 入 或 删除 数 
fase, ASRS SPERMS REC, BLE 
保证 正确 性 ， 从 进程 方 同 看 ， 与 绥 促 块 父 互 等 价 
TIRRAN H. ° 


图 7-3 有 反映 了 加 写 的 数据 正好 在 一 个 块 内 的 情 
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数据 在 缓冲 区 中 多 停留 一 段 时间 的 基础 。 
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/代码 路 径 : fs/buffer.c: 

struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 
{ 

struct buffer_head * tmp, *bh; 


repeat: 


if (bh=get_hash_table (dev,block) ) /试图 从 尚且 存在 绑 定 关系 的 
缓冲 块 中 沿用 


return bh; 
tmp=free_list; 


for (; ) { 


if (! (bh=find_buffer (dev,block) ) ) /查找 设备 号 和 块 号 符合 
要 求 的 缓冲 块 


return NULL; 
bh- > b_count++; 


wait on buffer (bh) ; 


static struct buffer_head * find_buffer (int dev,int block) 


{ 


struct buffer_head * tmp; 


for (tmp=hash (dev,block) ; tmp! =NULL; tmp=tmp-> 
b_next) / 饥 历 哈 希 表 进 行 比 对 


if (tmp->b_dev==dev& &tmp-> b_blocknr==block) 
return tmp; /如 果 找 到 现成 的 ， 就 返回 tmp 
return NULL; /如 宁 没 找到 现成 的 ， 丈 返回 NULL 


} 


DETERS AT DA, A MB A eT 
索 现 成 的 缓冲 块 时 ， 只 看 设备 号 和 块 号 ， 其 他 的 
什么 都 不 管 。 只 要 缓冲 块 与 硬盘 数据 块 的 绑 定 天 
系 还 存在 ， 束 认定 数据 块 中 的 数据 仍然 俘 留 在 组 
冲 块 中 ， 束 可 以 直接 用 ， 不 需要 从 硬盘 上 读 取 ， 
节省 了 100 倍 的 硬盘 读 取 时 间 。 


如 来 在 绥 冲 区 中 找 了 一 裔 ， 所 有 缕 冲 块 部 已 
经 与 便 盘 中 的 数据 块 建立 了 绑 定 关系 ， 但 b dev、 


b_blocknr 义 都 不 古 进程 所 需要 的 ， 实 在 找 不 到 合 
适 的 ， 那 瓯 只 能 找 一 个 暂时 没有 进程 使 用 
(b_count 为 0) 的 空闲 缓 神 块 ， 废 掉 已 经 存在 的 绑 
定 关 系 ， 用 新 的 绑 定 关系 取而代之 ， 即 新建 缓冲 
块 。 到 此 为 止 ， 硬盘 数据 块 中 的 数据 才 算 不 在 组 
冲 块 中 停留 了 。 代 码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 


if (find buffer (dev,block) ) 
goto repeat; 

bh- > b_count=1; 

bh- > b_dirt=0; 


bh- > b_uptodate=0; 


remove _from_queues (bh) ; 
bh- > b_dev=dev; 

bh- > b_blocknr=block; 

insert _into_queues (bh) ; 
return bh; 


} 


这 两 行 代码 的 意思 是 ， 新 申请 的 缓冲 块 与 数 
据 块 建立 绑 定 关系 。 新 申请 一 个 绥 冲 块 会 有 两 种 
情景 。 一 种 是 操作 系统 刚 启动 的 时 候 ， 该 缓冲 块 
没有 和 任何 数据 块 建立 绑 定 关系 。 另 一 种 是 操作 
系统 已 经 运行 了 一 段 时 间 ， 执 行 过 充分 多 的 文件 
读 写 操作 ， 所 有 缓冲 块 都 与 硬盘 数据 块 建立 了 绑 
定 关 系 ， 而 且 所 有 的 缓冲 块 与 新 申请 的 缓冲 块 的 
b_dev、b_blocknr 不 符 ， 不 能 共 吾 。 所 以 只 能 在 暂 
时 没有 进程 使 用 (b_count 为 0 的 缓冲 块 中 ， 强 行 


占用 一 个 缓冲 块 。 在 这 种 情景 下 ， 这 两 行 代码 束 
AMBRE: 


1) 建立 一 个 新 的 缓冲 块 与 人 硬盘 数据 块 之 间 的 
BORER ART HE © 


2) 废除 之 前 的 缓冲 块 与 硬盘 数据 块 的 绑 定 天 
系 。 


值得 注意 的 是 ， 为 了 让 数据 块 中 的 数据 尽 可 
能 长 时 间 地 停留 在 缓冲 块 中 ， 内 核 中 没有 任何 机 
制 、 也 没有 任何 代码 能 够 将 已 经 建立 了 绑 定 关系 
RIR ~ MERRER, AR > 主动 地 解除 绑 
定 关 系 。 只 有 在 迫不得已 的 情况 下 ， 才 被 新 建立 
的 绑 定 关系 强行 奉 换 。 所 有 这 些 的 目的 只 有 一 
个 ， 就 是 尽 可 能 使 数据 在 缓冲 区 中 集 留 更 长 的 时 
间 。 现 在 ， 我 们 可 以 看 出 ，b_dev 和 b_blocknr 是 便 


Ph BORER AAT H ETH XP BRST] SAB 
重要 的 管理 信息。 


反观 请 求 项 request 的 设计 思路 ， 和 缓冲 区 正 
好 相反 ， 它 的 目的 是 ， 尽 可 能 快 地 让 缓冲 块 和 硬 
盘 交 互 数据 。 前 面 我 们 介绍 到 ，request 中 也 有 与 
b_dev#lb_blocknrR (WIFE, EV eka Ss 
dev 和 块 的 首 悄 区 号 sector。 它 们 除了 保证 缓冲 块 
和 硬盘 数据 块 交互 的 正确 性 外 ， 更 多 的 是 尽 可 能 
快 地 让 缓冲 块 和 数据 块 进行 交互 。 我 们 来 看 如 下 
代码 : 


/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 
void ]]_ rw_block (int rw,struct buffer head * bh) /底层 块 设备 操作 
{ 


unsigned int major; 


if ( (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV|| 
! (blk_dev[major].request fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 
return; 

} 

make request (majorrw,bh) ; /设置 请 求 项 

} 


static void make_request (int major,int rw,struct buffer_head * bh) 


if (req<request) { 

if (rw_ahead) { 

unlock _buffer (bh) ; 

return; 

} 

sleep_on (&wait_for_request) ; 


goto repeat; 


} 

req- > dev=bh->b_dev; // 用 绥 冲 块 中 的 b_dev 设 置 请 求 项 
req- > cmd=rw; 

req- > errors=0; 


req- > sector=bh- > b_blocknr< <1; /用 缓冲 块 中 的 b_blocknr 设 置 
请 求 项 


req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 

req- > bh=bh; 

req- > next=NULL; 

add _request (major+blk_dev,req) ; /加 载 请 求 项 
} 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


struct request * tmp; 


req- > next=NULL; 


di Q ; 
if (req->bh) 


req- > bh- > b_dirt=0; 


if (! (tmp=dev-> current_request) ) {// 只 要 硬盘 空间 ， 就 立即 让 
当前 请 求 项 对 应 的 缓冲 块 和 硬盘 进行 交互 


dev- > current_request=req; 

sti () ; 
(dev->request_fn) () ; 

return; 

} 


for (; tmp->next; tmp=tmp->next) // 如 果 硬 盘 忙 着 ， 就 把 请 求 
项 载 入 请 求 项 队列 


if ( (IN_ORDER (tmp,req) || 

! IN-ORDER (tmp,tmp->next) ) && 
IN_ORDER (req,tmp-> next) ) 

break; 

req- >next=tmp->next; /next 指 针 用 来 组 建 队 列 


tmp- > next=req; 


sti () ; 


add_request 范 数 执行 时 会 出 现 两 种 情况 ， 如 
果 硬 盘 是 空 内 的 ， 束 让 硬盘 处 理 当 前 请 求 项 的 请 
求 ， 如 果 硬 盘 是 忙 的 ， 即 正在 处 理 某 个 请 求 项 ， 
这 时 候 义 有 请 求 项 来 了 ， 束 把 这 些 请 求 项 搬入 请 
求 项 队列 ，next 指 针 用 来 组 建 请 求 项 队列 ， 情 景 如 
图 7-5 所 示 。 
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7-5 组 建 请 求 项 队列 的 情景 


我 们 再 来 看 处 理 请 求 项 队列 中 各 项 的 代码 : 


/代码 路 径 : kernel/blk_drv/hd.c: 
static void read_intr (void) 

{ 

if (win_result () ) { 

bad _rw_intr () ; 

do_hd request () ; 

return; 

} 

port _read (HD_DATA,CURRENT-> buffer, 256) ; 
CURRENT- > errors=0; 
CURRENT- > buffer+=512; 
CURRENT- > sector++; 

if (--CURRENT-> nr sectors) { 
do _hd=&read_intr; 


return; 


} 


end_request (1) ; // 处 理 完 一 个 请 求 项 后 处 理 善 后 工作 


do_hd_request () ; /如 果 还 有 剩余 请 求 项 ， 继 续 下 达 交 互 指令 ; 
WRA, Woke 


} 

static void write_intr (void) 

{ 

if (win_result () ) { 

bad _rw_intr () ; 

do _hd request () ; 

return; 

} 

if (--CURRENT->nr_sectors) { 
CURRENT- > sector++; 
CURRENT- > buffer+=512; 

do _hd=& write_intr; 

port _write (HD_DATA,CURRENT-> buffer, 256) ; 


return; 


} 


end_request (1) ; // 处 理 完 一 个 请 求 项 后 处 理 善 后 工作 


do_hd_request () ; /如 果 还 有 剩余 请 求 项 ， 继 续 下 达 交 互 指令 ; 
WRA, Woke 


} 

void do_hd_request (void) 
{ 

int i,r; 

unsigned int block,dev; 
unsigned int sec,head,cyl; 


unsigned int nsect; 


INIT REQUEST; /就 在 这 里 判断 是 否 还 有 剩余 的 请 求 项 
dev=MINOR (CURRENT > dev) ; 

block=CURRENT- > sector; 

if (dev>=5*NR_HD]|block+2 >hd[dev].nr_sects) { 
end_request (0) ; 

goto repeat; 


} 
/代码 路 径 : kernel/blk_drv/hd.c: 


extern inline void end_request (int uptodate) 


wake up (&CURRENT-> waiting) ; 
wake up (&wait_for_request) ; 
CURRENT- > dev=-1; 


CURRENT=CURRENT > next; // 将 当前 请 求 项 设置 为 下 一 个 ， 为 
处 理 剩 余 请 求 项 做 准备 


} 

#define INIT_REQUEST' 

repeat: \ 

if (! CURRENT) WCURRENT 为 空 ， 说 明 没 有 剩余 请 求 项 了 
return; \ 

if (MAJOR (CURRENT->dev) ! =MAJOR_NR) \ 

panic (DEVICE_NAME": request list destroyed") ; \ 


if (CURRENT->bh) {\ 


if (! CURRENT->bh->b_lock) \ 
panic (DEVICE_NAME": block not locked") ; \ 


} 


从 以 上 代码 中 可 以 看 出 ， 无 论 是 读 盘 中 断 服 

务 程序 还 是 写 盘 中 断 服 务 程序 ， 在 执行 完 一 对 组 
冲 块 和 数据 块 的 交互 后 ， 都 要 调用 end_request 

O 画 数 和 do_hd_request O 函数， 这样 就 形成 
了 处 理 请 求 项 队列 中 的 请 求 项 的 循环 操作 。 
do_hd _ request () 函数 中 INIT_REQUEST 这 个 
宏 ， 用 以 判断 循环 是 否 结束 。 如 果 当 前 请 求 项 不 
为 空 ， 即 队列 中 还 有 请 求 项 对 应 的 缓冲 块 需要 交 
互 ， 就 继续 下 达 交 互 命令 ， 直 到 把 请 求 项 中 所 有 
的 任务 都 执行 完 ， 即 CURRENT 为 空 ， 然 后 返回 。 
此 循环 处 理 的 情景 如 图 7-6 所 示 。 
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7-6 ”处 理 请 求 项 队列 的 情景 


请 求 项 这 样 设 计 的 目的 只 有 一 个 ， 束 是 要 尽 
快 让 缓冲 块 和 硬盘 数据 块 进行 交互 。 


值得 关注 的 是 请 求 项 的 大 小 为 32 项 ， 即 
request[32]。 为 什么 是 32， 而 不 是 16 或 64 呢 ? 


这 古 因为 数据 在 主机 中 交互 的 速度 比 在 硬 副 
中 交互 的 速度 快 2 个 数量 级 ， 也 就 是 说 ， 平 均 进程 
与 缓冲 区 每 交互 100 个 缓冲 块 的 数据 ， 缓 冲 块 与 硬 
一 交互 1 个 缓冲 块 的 数据 。 主 机 中 缓冲 块 的 数量 最 


多 为 3000 多 块 ， 绥 冲 块 与 请 求 项 的 数量 之 比 正好 
征 2 个 量 级 ， 与 内 存 、 硬 一 交互 速度 之 比 匹配 。 如 
东 请 求 项 的 数量 过 多 ， 硬 盘 根 本 来 不 及 处 理 ， 请 
求 项 整 会 有 内置， 浪费 了 内 存 ， 如 琳 数 量 过 少 ， 由 
于 没有 足够 的 请 求 项 ， 寻 致 新 的 读 写 任 务 无 法 下 
达 ， 人 硬盘 空 箱 ， 而 进程 无 合适 的 缓 神 块 可 用 ， 被 
频 索 挂 起 ， 导 致 系统 整体 运行 效率 降低 。 而 32 这 
个 数 子 ,分寸 拿捏 得 恰到好处 。 


7.4 ”uptodate 和 dirt 的 作用 


前 面 一 节 介 绍 到 ，b_dev 和 b_blocknr 两 个 字段 
是 进程 能 共享 缓冲 块 的 基础 ， 是 缓冲 块 中 数据 是 
否 仍然 停留 的 标志 。 停 留 ， 就 是 要 被 共享 ， 使 用 
会 延伸 至 两 个 方向 : 一 个 是 进程 方向 ， 即 进程 能 

享 哪些 缓冲 块 ， 不 能 共享 哪些 ， 一 个 是 硬盘 方 
向 ， 即 哪些 需要 同步 到 硬盘 上 ， 哪 些 不 需要 同 
步 。 而 这 两 个 使 用 方向 的 核心 任务 ， 就 是 确保 组 
冲 块 和 数据 块 上 数据 的 正确 性 。 


buffer_head 中 b_uptodate 和 b_dirt 这 两 个 字段 ， 
都 是 为 了 解决 缓 促 块 和 数据 块 的 数据 正确 性 问题 
而 存在 的 。 


b_uptodate 针 对 进程 方 品 ， 它 的 作用 是 ， 告 诉 
内 核 ， 只 要 缓冲 块 的 b_uptodate 字 段 被 设置 为 1， 
缓冲 块 的 数据 已 经 是 数据 块 中 最 独 的 ， 束 可 以 放 
心地 支持 进程 共享 缓冲 块 的 数据 。 反 之 ， 如 果 
b_uptodate 为 0， 承 提醒 内 核 缓 神 块 并 没有 用 绑 定 
的 数据 块 中 的 数据 更 新 ， 不 文 持 进程 共享 该 缓冲 
块 。 

b_dirt 是 针对 硬盘 方 癌 的 。 只 要 缓冲 块 的 b_dirt 
字段 被 设置 为 1， 束 是 告诉 内 核 ， 这 个 缓冲 块 中 的 
内 容 已 经 被 进程 方向 的 数据 改写 了 ， 最 终 需 要 同 
步 到 硬盘 上 。 反 之 ， 如 果 为 0， 就 不 需要 同步 。 


7.4.1 b_uptodate 的 作用 


我 们 爷 来 看 进程 方向 上 ， 如 采 没 有 b_uptodate 
字段 的 控制 ， 会 出 现 什 么 情况 。 


没有 b_uptodate 了 字段 的 控制 ， 缓 促 块 与 便 盘 块 
郑 定 后 ， 进 程 百 接 操作 缓冲 块 中 的 数据 ， 可 能 会 
出 现 稍 误 。 以 读 文 件 为 例 ， 如 几 7-7 所 示 。 


进程 的 本 意 要 读 取 文件 中 
| 这 个 数据 块 到 进程 内 存 空间 


申请 一 个 缓冲 决 与 硬盘 数据 块 
auc ~~ I se, 乌 并 未 用 数据 块 中 的 数据 
uptodate 绥 冲 块 


进程 的 数据 SPS - 如 果 不 用 硬盘 数据 块 的 数据 


“LI uptodate pth, 缓冲 块 中 的 
缓冲 区 … a … 数据 是 垃圾 数据 , 直接 将 缓冲 块 
中 的 垃圾 数据 当 作 硬 盘 数 据 块 的 


stl 


i 数据 读 进 内 存 空间 , 就 会 引发 错误 
on ~ aT ~ 


7-7 ”没有 b_uptodate 字 段 控制 情况 下 该 文件 的 


情景 


从 图 7-7 中 不 难 发 现 ， 由 于 缓冲 块 中 的 数据 并 
未 用 数据 块 中 的 数据 更 新 ，b_uptodate 为 0， 此 时 
该 绥 剖 块 中 是 垃圾 数据 ， 所 以 读 入 进程 的 数据 只 
是 缓冲 块 中 的 垃 拆 数据 ， 人 硬盘 上 的 数据 根本 没 读 
进来 ， 违 背 了 进程 读 取 硬盘 数据 的 本 章 ， 出 现 数 
Tata ie ° 

再 比如 写 文 件 ， 如 图 7-8 所 示 。 

从 图 7-8 中 不 难 发 现 ， 进 程 原本 要 写 入 文件 的 
数据 量 小 于 一 个 块 ， 由 于 没有 用 数据 块 中 的 数据 


更 狐 缓 冲 块 ，b_uptodate 为 0， 同 步 数 据 时 ， 绥 六 
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原来 的 数据 ， 引 起 数据 错误 ， 这 也 不 是 进程 的 本 


(0) 
局 \ 


可 见 ， 如 琳 不 用 人 硬 副 数据 块 中 的 数据 更 新 绥 
冲 块 中 的 数据 ， 后 续 的 读 文件 、 写 文件 对 绥 冲 块 
的 操作 都 不 是 建立 在 硬盘 数据 块 中 的 数据 的 基础 
之 上 的 ， 可 能 导致 数据 错误 。 设 置 b uptodate 为 
1， 束 标志 春 缓 冲 块 中 的 数据 是 基于 人 硬盘 数据 块 
的 ， 内 核 可 以 放心 地 文 持 进 程 与 缓冲 块 进 行 数据 
交互 。 
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| 进程 数据 之 外 还 有 缓冲 块 中 的 
硬盘 … 国 数据 
sx … 结果 把 垃圾 数据 也 同步 了 进去， 
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7-8 没有 b_uptodate 字 段 控 制 情况 下 写 文 件 的 


情景 


为 此 ， 当 硬盘 中 断 服务 程 序 执行 时 ， 在 数据 
从 硬 盐 恋 入 缓冲 块 后 ， 或 从 缓冲 块 同步 到 便 盘 
后 ， 都 会 将 b_uptodate 设 置 为 1°。 代码 如 下 : 


// 代 人 码 路 径 : kernrl/blk_drv/hd.c: 


static void read_intr (void) / 读 盘 中 断 服 务 程序 


CURRENT- > buffer+=512; 
CURRENT- > sector++; 

if (--CURRENT-> nr sectors) { 
do _hd=&read_intr; 

return; 

} 


end_request (1) ; // 处 理 完 一 个 请 求 项 后 处 理 善 后 工作 


do_hd request () ; 
} 
// 代 码 路 径 : kernrl/blk_drv/hd.c: 


static void write_intr (void) / 写 盘 中 断 服务 程序 


if (--CURRENT->nr sectors) { 


CURRENT- > sector++; 

CURRENT- > buffer+=512; 

do _hd=&write_intr; 

port _ write (HD_DATA,CURRENT-> buffer, 256) ; 
return; 

} 


end_request (1) ; // 处 理 完 一 个 请 求 项 后 处 理 善 后 工作 


do_hd request () ; 

} 

// 代 码 路 径 : kernrl/blk_drv/blk.h: 

extern inline void end_request (int uptodate) 
{ 

DEVICE _OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 


CURRENT- > bh- > b_uptodate=uptodate; /将 b_uptodate 字 段 设 置 为 
1， 表 示 已 经 更 新 ， 数 据 内 容 是 同步 的 


unlock buffer (CURRENT >bh) ; 


} 


值得 注意 的 是 ，b_uptodate 被 设置 为 1， 是 告 
诉 内 核 ， 缓 剖 块 中 的 数据 已 经 用 数据 块 中 的 数据 
更 狐 过 了 ， 但 并 不 等 于 两 兰 的 数据 束 完 全 一 致 。 
比如 ， 为 文件 创建 新 数据 块 ， 束 需要 新 建 一 个 组 
THER ASIN PTE TEER BG IL BE RAR © KAH 
后 ， 先 将 缓冲 块 清 零 ， 然 后 将 该 缓冲 块 的 
b_uptodate 字 段 设 置 为 1。 当 然 ， 此 时 并 没有 实质 
地 同步 数据 ， 绥 冲 块 和 硬盘 块 的 数据 内 容 并 不 一 
致 ， 但 这 并 不 影 啊 数据 的 正确 同步 。 


通过 第 5 章 的 介绍 我 们 得 知 ， 狐 建 的 数据 块 只 
可 能 有 两 个 用 途 ， 要 么 用 来 存储 文件 的 内 容 ， 要 
么 用 来 存储 文件 的 i_zone 的 间接 块 管理 信息 。 


如 果 是 存储 文件 内 容 ， 由 于 新 建 数据 块 和 新 
建 便 盘 数 据 块 ， 此 时 都 是 垃圾 数据 ， 都 不 是 进程 
需要 的 ， 无 所 谓 数据 是 否 更 新 ， 结 果 “ 等 效 于 ”更 
新 问题 已 经 解决 ， 所 以 将 该 组 神 块 的 b_uptodate 字 
段 设置 为 1 〈 仔 细 想 想 ， 这 时 缓冲 块 不 清 零 ， 也 没 
有 问题 ) 。 


如 果 是 存储 文件 的 间接 块 管理 信息 ， 必 须 清 
零 ， 表 示 没 有 索引 间接 数据 块 ， 否 则 垃圾 数据 会 
导致 索引 错误 ， 破 坏 文件 操作 的 正确 性 。 这 时 虽 
然 缓冲 块 与 硬盘 数据 块 的 数据 不 一 致 。 依 据 相同 
的 原理 ，b_uptodate 字 段 设置 为 1 仍然 没 问 题 。 


KIERA, RAIRE, RENT 
建 的 数据 块 新 申请 了 缓冲 块 ， 不 管 这 个 缓冲 块 将 
来 用 作 什 么 ， 反 正 进程 现在 不 需要 里 面 的 数据 ， 


干脆 全 都 请 零 。 这 样 不 管 己 之 绑 定 的 数据 块 用 来 
存储 什么 信息 ， 都 无 所 谓 ， 将 该 缓冲 块 的 
b_uptodate 字 段 设 置 为 1， 更 狐 问 题 “ 等 效 于 ”已 解 
R o 


代码 如 下 : 


/代码 路 径 : fs/inode.c: 


int create_block (struct m_inode * inode,int block) /创建 一 个 新 数 
块 


{ 
return _bmap (inode,block, 1) ; 
} 


static int_bmap (struct m_inode * inode, int block, int create) 


if (block<7) { 


if (create& & ! inode- >i_zone[block]) 

if (inode->i_zone[block]=new_block (inode->i_dev) ) { 
inode- > i_ctime=CURRENT_TIME; 

inode- > i_dirt=1; 

} 


return inode- > i_zone[block]; 


/代码 路 径 : fs/Bitmap.c: 


int new_block (int dev) /在 设备 dev 申 请 一 个 数据 块 


if (bh->b count! =1) 
panic ("new block: countis! =1") ; 
clear block (bh->b data) ; 


bh->b_uptodate=1; /将 该 缓冲 块 设置 为 已 更 新 


bh- > b_dirt=1; 
brelse (bh) ; 
return j; 


} 


b_uptodateRIZ EB AU, PANAR ICE 
会 及 生 读 写 两 方面 情况 ， 下 面 我 们 看 看 会 怎么 
样 。 


先 看 读 的 情况 ， 绥 冲 块 是 新 建 的 ， 里 然 里 面 
是 垃圾 数据 ， 考 虑 到 是 新 建文 件 ， 这 时 候 不 存在 
读 没 有 内 容 的 文件 数据 块 的 逻辑 需求 ， 内 核 代码 
` 会 做 出 这 种 感 苇 的 动作 。 


再 看 写 的 情况 ， 由 于 古 新 建 组 冲 块 被 清和 零 、 
新 建 的 和 硬盘 数据 块 都 是 垃圾 数据 ， 此 时 组 名 块 和 
效 据 块 里 面 的 数据 都 不 是 进程 需要 的 ， 无 所 谓 是 


TEDO Eheim ° Icha ee, Ay 以 “等 效 
地 ”看 成 已 经 更 新 。 所 以 ， 执 行 写 操作 不 会 违 育 进 
程 的 本 意 。 


我 们 来 看 图 7-9 。 


进程 的 本 意 是 要 人 往 
{I 此 数据 块 中 写 数据 


Se, or 6) 站 


awc EE E -o 
eee eee » W 
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7-9 ”在 b_uptodate 字 上 段 控 制 情 况 下 读 文 件 的 情 


Æ, 
AS 


以 上 就 是 内 核 中 b_uptodate 被 设置 为 1 的 情 
景 。 图 7-9 表 现 了 硬盘 数据 块 用 来 存储 文件 内 容 的 


情景 。 日 色 部 分 代表 清 零 了 ， 不 论 存 储 的 是 文件 
的 数据 块 数 据 还 下 间接 块 信息 ， 都 没有 问题 。 


反之 ， 如 果 缓 冲 区 中 数据 没有 更 新 ， 
b_uptodate 为 0， 即 更 狐 问 题 没 有 解决， 内 核 会 阻 
拦 进程 ， 不 让 其 共享 缓冲 块 中 的 数据 ， 无 论 读 
写 ， 都 不 可 以 。 其 目的 是 为 了 避免 前 面 讲述 的 没 
有 更 新 带 来 的 数据 混乱 。 比 如 在 读 取 块 设备 数据 
的 时 候 ， 判 断 了 两 次 ， 代 码 如 下 : 


/代码 路 径 : fs/Buffer.c: 

struct buffer_head * bread (int dev,int block) 
{ 

struct buffer_head * bh; 

if (! (bh=getblk (dev,block) ) ) 


panic ("bread: getblk returned NULL\n") ; 


决定 


if (bh->b_uptodate) /申请 到 缓冲 块 后 ， 先 看 是 否 已 更 新 ， 以 此 
是 否 返 回 使 用 该 缓冲 块 


return bh; 
ll_rw_block (READ,bh) ; 
wait on buffer (bh) ; 


if (bh->b_uptodate) /从 硬盘 读 进 内 容 后 ， 再 次 检查 是 否 已 更 


， 以 此 决定 是 否 返 回 使 用 该 缓冲 块 


return bh; 
brelse (bh) ; 
return NULL; 


} 


此 代码 中 ，getblk 琴 数 很 有 可 能 在 皆 冲 区 中 找 


到 一 个 已 经 建立 了 绑 定 关 系 (b_dev 和 b_blocknr 都 
匹配 ) ， 而 且 正 好 可 以 被 当前 进程 使 用 的 缓冲 
块 ， 但 就 是 由 于 b_uptodate 为 0， 这 个 缓冲 块 也 不 
能 使 用 ， 只 好 再 释放 掉 。 


再 比如 ， 为 与 文件 中 已 有 的 数据 块 交 互 而 新 
申请 的 一 个 绥 促 块 ， 束 把 b_uptodate 标 志 设 置 为 
0， 表 示 此 绥 冲 块 数据 现在 还 没有 人 被 更 新 ， 不 能 被 
进程 共 诗 ， 代 码 如 下 : 


/代码 路 径 : fs/Buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if (find buffer (dev,block) ) 

goto repeat; 

bh- > b_count=1; 

bh- > b_dirt=0; 

bh->b_uptodate=0; // 数 据 还 没有 被 更 新 ， 还 不 能 被 进程 共 主 
remove _from_queues (bh) ; 

bh- > b_dev=dev; 


bh- > b_blocknr=block; 


insert _into_queues (bh) ; 
return bh; 


} 


7.1 下 中 介绍 过 这 部 分 代码 ， 一 个 新 的 缓冲 
块 束 征 在 这 里 诞生 的 ， 刚 诞生 的 一 刻 ， 数 据 肯定 
和 人 硬盘 数据 块 是 不 一 任 的 ， 所 以 要 把 b_uptodate 设 
置 为 0， 确 你 不 要 进程 误 用 。 


7.4.2 b _dirt 的 作用 


b_uptodate 标 志 设 置 为 1 后 ， 内 核 就 可 以 支持 
进程 共 译 该 缓冲 块 的 数据 了 ， 读 写 剖 可 以 。 读 操 
作 不 会 改变 缓冲 块 中 数据 的 内 容 ， 所 以 不 影响 效 
fa; 而 执行 了 写 换 作 后 ， 融 改变 了 缓冲 块 效 据 和 内 
容 ， 环 要 将 b_dirt 标 志 设 置 为 1° 比如 ， 往 块 设备 
文件 写 入 数据 ， 往 普通 文件 写 入 数据 ， R 
体 代 码 如 下 : 


/代码 路 径 : fs/blk_dev.c: 


int block_write (int dev,long * pos,char * buf,int count) //Rix 
ENRE A SER 


ee 


offset=0; 


*post+=chars; 

writtent+=chars; 

count-=chars ; 

while (chars-- > 0) 

* (p++) =get_fs_byte (buf++) ; 
bh- > b_dirt=1; 


brelse (bh) ; 


/代码 路 径 : fs/file_dev.c: 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 


count) /普通 文件 内 容 写 入 缓冲 块 


c=pos%BLOCK_SIZE; 
p=c+bh- > b_data; 


bh- > b_dirt=1; 


c=BLOCK_SIZE-c; 

if (c>count-i) c=count-i; 
pos+=c; 

if (pos>inode->i_size) { 
inode- > i_size=pos; 

inode- > i_dirt=1; 

} 

1+=C; 

while (c-->0) 

* (p++) =get_fs_byte (buf++) ; 


ee ee 


/代码 路 径 : fs/file_dev.c: 
static struct buffer_head * add_entry (struct m_inode * dir, 


const char * name,int namelen,struct dir_entry ** res dir) /目录 文件 


需要 加 载 目 永 项 ， 用 到 写 缓冲 块 


if (i* sizeof (struct dir_entry) >=dir->i_size) { 
de- > inode=0; 

dir- >i size= (i+1) *sizeof (struct dir_entry) ; 
dir- > i_dirt=1; 

dir- > i_ctime=CURRENT_TIME;; 

} 

if (! de->inode) { 

dir- > i_mtime=CURRENT_TIME; 

for (i=0; i< NAME_LEN; i++) 

de->name[iJ= (i<namelen) ?get_fs_byte (nameti) 
bh- > b_dirt=1; 

*res_dir=de; 


return bh; 


改变 了 缓冲 块 数据 内 容 ，b_uptodate 标 志 要 不 
要 因此 重新 设置 为 0， 而 苯 止 内 核 继续 文 持 进程 共 
享 该 缓冲 块 呢 ? 我 们 来 看 图 7-10。 


C) 进程 A 
i ZNG 数据 已 经 更 新 ， 


b_uptodate #1 


Mh fe oy 


= 部 分 不 会 会 有 


所 以 ， j T 
图 7-10 ERRE E AREA Ts 


从 图 7-10 中 不 难 发 现 ， 由 于 这 个 绥 促 块 中 的 
效 据 此 前 已 经 用 便 盘 效 据 块 中 的 效 据 更 新 过 ， 所 
以 ， 往 缓冲 块 中 写 入 新 数据 后 ， 缓 冲 块 中 没有 与 


入 新 数据 的 部 分 仍 与 价 盘 数据 块 对 应 的 数据 部 分 
相同 ， 将 来 往 数 据 块 上 同步 的 时 候 ， 所 有 有 有 的 数据 
都 是 进程 希望 同步 到 便 盘 数据 块 上 的 ， 不 会 把 坟 
圾 数据 同步 到 数据 块 中 。 所 以 b_uptodate 仍 然 是 

1， 不 需要 改变 ， 这 个 缓冲 块 中 的 数据 仍然 可 以 被 
进程 共 圣 ， 继 续 读 写 都 没有 问题 。 我 们 来 看 继续 
写 入 数据 的 情景 ( 见 图 7-11) ° 


ERIE, 不断 地 往 绥 冲 块 写 入 数据 缓冲 
区 中 的 数据 目 然 而 然 地 不 断 变 化 ， 将 来 同步 的 时 
修 ， 这 些 新 数据 目 然 会 像 进 程 希望 的 那样 同步 到 
便 盘 数据 块 中 。 


进程 改写 数据 


C6 人 合作 二 二 


硬盘 .… 


同步 的 结果 
是 进程 希望 的 


Al 7-11 继续 往 缓 冲 块 中 写 入 数据 的 情景 


buffer_head 中 在 进程 方 同 和 硬盘 方 癌 分 别 设 
置 了 两 个 字段 (b_uptodate 和 b_dirt) ， 请 求 项 结 
构 中 也 有 这 两 个 方 同 上 的 考虑 。 相 比 写 控 作 而 


言 ， 读 操作 对 用 户 进 程 更 上 紧迫， 所 以 请 求 项 为 这 
两 种 操作 设 是 了 大 小 不 同 的 空间 ， 代 人 码 如 下 : 


// 代 码 路 径 : kernel/blk_drv/]_ rw _blk.c: 


static void make_request (int major, int rw,struct buffer_head * bh) 


lock buffer (bh) ; 


if ( (rw==WRITE& & ! bh->b_dirt) || (rw==READ& &bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; 
return; 

} 

repeat: 

if (rw==READ) 
req=request+NR_REQUEST; 


else 


req=requestt ( (NR_REQUEST*?2) /3) ; 
while (--req >=request) 
if (req->dev<0) 


break; 


从 以 上 代码 不 难 发现 ，request[32] 中 只 有 2/3 
的 空间 可 以 用 来 写 操作 ， 而 全 部 的 空间 都 可 以 用 
来 读 操 作 ， 在 同等 的 条 件 下 ， 读 操作 执行 的 机 会 
EZ o 


另外 ， 仔 细 考 察 b uptodate、b_dirt 可 以 发 

只 要 b_uptodate 极 设置 为 1， 进 程 束 可 以 共享 
里 面 的 数据 。 而 且 在 绥 神 区 中 没有 进程 可 以 二 接 
共 至 的 缓冲 块 的 情况 下 ， 只 要 b_count 为 0， 束 可 


DUPRE HAA, ARRS AERA EE, A 
ITE, ANA ĊARA ER ° (A UIARb_dirt 
人 馈 设 置 为 1， 和 情况 束 不 一 样 了 ， 这 个 缓冲 块 的 数据 
已 经 和 数据 块 上 的 不 一 致 了 ， 需 要 同步 ， 虽 然 用 
不 看 立即 束 同 步 ， 但 在 同步 之 前 不 能 挪 作 他 用 ， 
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进程 等 待 ， 等 同步 完成 后 ， 内 核 吏 会 立刻 将 b_dirt 
设置 为 0， 腾 出 更 多 缓冲 块 供 进程 使 用 。 代 码 如 

ae 


/代码 路 径 : kernel/blk_drv/ll_rw_blk.c: 


static void add_request (struct blk_dev_struct * dev,struct request * 
req 


{ 


struct request * tmp; 
req- > next=NULL; 
cli () ; 
if (req-> bh) 
req- > bh- > b_dirt=0; 
if (! (tmp=dev- > current_request) ) { 
dev- > current_request=req; 
sti () ; 
(dev-> request_fn) () ; 


return; 


7.4.3 iuptodate、i dirt 和 s_dirt 风 作用 


以 上 介绍 了 控制 文件 内 容 正确 性 的 方面 ， 内 
容 通过 b_uptodate 和 b_dirt 文 两 个 字段 ， 傈 证 缓冲 
区 数据 与 硬盘 数据 块 数据 的 正确 性 。 文 件 管理 信 
妃 也 有 类 似 的 字段 ， 比 如 inode_table[32] 中 存储 的 
i 节点 ， 在 多 进程 操作 同一 文件 时 ， 就 要 共享 文件 i 
节点 信息 。 为 此 它 的 数据 结构 中 也 设计 了 两 个 字 
Ex: i_uptodate (Linux 0.11 中 没有 实际 使 用 ) 和 
i_dirt。 代 码 如 下 : 


// 代 码 路 径 : include/linux/fs.h: 
struct m_inode{ 
unsigned short i_mode; 


unsigned short i_uid; 


unsigned long i_size; 
unsigned long i_mtime; 
unsigned char i_gid; 
unsigned char i_nlinks; 
unsigned short i_zone[9]; 
/*these are in memory also*/ 
struct task_struct * i_wait; 
unsigned long i_atime; 
unsigned long i_ctime; 
unsigned short i_dev; 
unsigned short i_num; 
unsigned short i_count; 
unsigned char i_lock; 
unsigned char i_dirt; 
unsigned char i_pipe; 
unsigned char i_mount; 


unsigned char i_seek; 


unsigned char i_update; 


}; 


设计 i_dirt 字 段 不 难 理解 ， 比 如 改变 文件 大 小 
Ja, SOT Be AVDA TSR, EE 
inode_table[32] F HiT 扎 和 人 硬盘 上 的 内 容 殉 不 一 
样 了 ， 需 要 同步 。i 闻 点 中 i_uptodate 标 志 并 没有 在 
系统 中 用 到 过 。 这 是 因为 ,这些 文件 管理 信息 在 
便 盘 上 都 是 以 效 据 块 的 形式 存储 的 ， 它 们 也 都 是 
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数据 块 内 容 一 样 ， 等 价 于 已 经 更 新 ， 和 直接 可 以 用 
来 共享， 不 需要 在 管理 结构 中 再 搞 一 套 i_uptodate 
标志 了 。 


super_block[8] 中 存储 的 超级 块 ， 也 存在 个 进 
程 共 理 的 问题 。 超 级 块 中 保存 看 整个 文件 系统 的 


官 理 信息 ， 多 进程 操作 文件 时 ， 免 不 了 郑 会 用 
到 。 它 的 数据 结构 中 也 有 一 个 字段 ，s_dirt， 代 码 
uF: 


/代码 路 径 : include/linux/fs.h: 
struct super_block{ 

unsigned short s_ninodes; 
unsigned short s_nzones; 
unsigned short s_imap_blocks; 
unsigned short s_zmap_blocks; 
unsigned short s_firstdatazone; 
unsigned short s_log_zone_size; 
unsigned long s_max_size; 
unsigned short s_magic; 
/*These are only in memory*/ 


struct buffer_head * s_imap[8]; 


struct buffer_head * s_zmap[8]; 
unsigned short s_dev; 

struct m_inode * s_isup; 

struct m_inode * s_imount; 
unsigned long s_time; 

struct task_struct * s_wait; 
unsigned char s_lock; 

unsigned char s_rd_only; 
unsigned char s_dirt; 


}; 


结构 中 没有 类 似 uptodate 这 样 的 字段 ， 理 由 和 
i 廊 点 结构 中 i_uptodate 没 有 修 用 到 是 一 样 的 。 它 们 
也 都 是 以 块 的 形式 载 入 缓冲 区 的 ， 载 入 缓冲 区 后 
与 便 盘 数据 块 内 容 一 样 ， 等 价 于 已 经 更 新 ， 不 需 
要 在 管理 结构 中 再 捅 一 父 uptodate 标 志 了 。 而 


s_dirt 罕 段 ， 除 了 在 读 超级 块 时 被 设置 为 0 后 ， 有 再 

没有 被 使 用 过 。 这 是 因为 ， 在 Linux 0.11 中 ， 进 程 
共享 超级 块 信 息 ， 全 部 从 super_block[8] 中 该 取信 
忆 ， 并 没有 往 表 项 中 写 入 数据 ， 所 以 没有 s_dirt 字 


段 。 


7.5 count ` lock ` wait ` requestHJ/E 


H 


数据 停留 在 缓冲 块 后 ， 在 进程 方 同 的 使 用 问 
题 继 续 延 伸 ， 束 是 本 世 要 介绍 的 b_count、b_lock 
和 *b_ wait ° 


7.5.1 _b_countb 的 作用 


进程 同 内 核 提 出 申请 的 时 候 ， 内 核 只 能 在 下 
面 两 种 情况 中 做 出 选择 : 让 进程 和 其 他 进程 共 圣 
某 个 缓冲 块 ， 该 缓冲 块 的 所 有 控制 字段 的 数值 也 
一 并 先 继 承 下 来 ， 为 进程 申请 一 个 没 被 任何 进程 
占用 的 缓冲 块 ， 所 有 的 控制 字段 重新 设置 。 


要 做 选择 ， 进 程 就 要 知道 哪些 缓冲 块 已 经 被 
其 他 进程 占用 了 ， 哪 些 没 有 被 占用 。 有 些 缓冲 块 
可 能 不 止 被 一 个 进程 共享 ， 这 就 需要 在 缓冲 块 中 
设置 一 个 字段 ， 使 内 核能 够 随时 知道 “每 个 缓冲 块 
有 多 少 进 程 在 共 诗 ”， 这 个 字段 束 是 b_count 。 


缓冲 区 在 初始 化 的 时 候 ， 没 有 进程 引用 缓冲 
块 ， 所 以 每 个 缓冲 块 的 b_count 被 设置 为 0。 代码 
如 下 : 


/代码 路 径 : fs/buffer.c: 


void buffer_init (long buffer_end) 


ee 


h- > b_dev=0; 


h- > b_dirt=0; 


h->b_count=0; /没有 进程 引用 缓冲 块 ， 引 用 计数 为 0 
h- > b_lock=0; 

h- > b_uptodate=0; 

h->b_wait=NULL; 

h- > b_next=NULL; 

h- > b_prev=NULL; 

h->b_data= (char *) b; 

h- > b_prev_free=h-1; 


h- > b_next_free=h+1; 


狐 申 请 一 个 缓冲 块 时 ， 这 个 缓冲 块 必须 没有 
被 任何 进程 占用 ，b_count 值 设置 为 0， 申 请 到 
后 ， 绥 冲 块 被 第 一 个 进程 共 圣 ，b_count 人 被 设置 为 
1 ° 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


tmp=free_list; 

do{ 

if (tmp->b_count) /引用 计数 必须 为 0 
Continue; 


© if (! bhlIBADNESS (tmp) <BADNESS (bh) ) {// 才 能 考虑 重 
新 申请 


bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

while ( (tmp=tmp- > b_next_free) ! =free list) ; 


bh->b_count=1; W/ 新 绥 冲 块 ， 意 味 着 只 有 当前 进程 在 引用 它 ， 所 
以 b_count 被 设置 为 1 


bh- > b_dirt=0; 

bh- > b_uptodate=0; 

remove from _queues (bh) ; 
bh- > b_dev=dev; 

bh- > b_blocknr=block; 

insert _into_queues (bh) ; 
return bh; 


} 


绥 冲 块 陆续 被 更 多 的 进程 共享 ，b_count 的 数 
值 在 原来 的 基础 上 逐渐 和 票 加 。 人 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


{ 


struct buffer_head * tmp, *bh; 
repeat: 


if (bh=get_hash_table (dev,block) ) /遍历 哈 希 表 ， 看 能 不 能 和 
其 他 进程 共享 缓冲 块 


return bh; 


ee ee 


struct buffer_head * get_hash_table (int dev,int block) 
{ 

struct buffer_head * bh; 

for (; ) { 

if (! (bh=find_buffer (dev,block) ) ) 

return NULL; 


bh->b_countt+; /如 果 发 现 可 以 共享 ， 则 该 缓冲 块 又 多 了 一 个 进 
程 引 用 它 ，b_count 递 增 


wait on buffer (bh) ; 
if (bh->b_dev==dev& &bh- > b_blocknr==block) 


return bh; 


bh- > b_count--; 
} 


} 


而 在 进程 读 写 文件 完毕 后 ， 不 再 需要 共享 组 
冲 块 ， 内 核 会 解除 该 进程 和 缓冲 块 的 关系 ， 
b_count 数 值 随 之 减 1。 如 果 所 有 进程 和 该 缓冲 块 
的 关系 都 解除 了 ， 则 b_count 的 值 就 被 递减 为 0， 
这 个 缓冲 块 就 又 可 以 被 当做 新 缓冲 块 来 申请 了 。 
代码 如 下 : 


// 代 码 路 径 : fs/file_dev.c: 


int file read (struct m inode * inode,struct file * filp,char * buf,int 
count) // 读 文件 


ee 


while (chars-->0) 


put _fs_byte (* (p++) , buf++) ; 
brelse (bh) ; /递减 引用 计数 
}else{ 

while (chars-->0) 


put_fs_byte (0, buf++) ; 


ee ee 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 


count) // 写 文件 


ee 


while (c-->0) 

* (p++) =get fs byte (buf++) ; 
brelse (bh) ; /递减 引用 计数 

} 

inode- > i_mtime=CURRENT_TIME; 


if (! (filp->f_flags&O_APPEND) ) { 


filp- > f{_pos=pos; 


inode- > i_ctime=CURRENT_TIME; 


ee 


/代码 路 径 : fs/buffer.c: 

void brelse (struct buffer head * buf) 
{ 

if (! buf) 

return; 

wait _on_buffer (buf) ; 

if (! (buf->b count--) ) 

panic ("Trying to free free buffer") ; 
wake _up (&buffer_wait) ; 


} 


m 


得 注意 的 是 ， 在 所 有 共享 缓冲 块 的 进程 全 
部 脱离 共享 天 系 后 ， 虽 然 b count 肯定 为 0， 但 这 
并 不 等 于 缓冲 块 与 数据 块 解除 了 绑 定 关系 。 如 宁 
将 来 某 个 进程 再 操作 这 个 缓冲 块 ， 只 要 这 个 缓冲 
块 的 b_dev、b_blocknr 没 有 改变 ， 束 不 需要 从 人 硬盘 
中 重新 读 取 ， 完 全 可 以 直接 沿用 这 个 缓冲 块 。 


7.5.2 i _ count 的 作用 


进程 与 缓冲 块 之 间 共 圣 的 是 文件 的 内 容 数 
据 ， 不 仅 管理 文件 的 内 容 数据 时 需要 b_count 字 
段 ， 而 且 文 件 的 管理 信息 中 ， 几 是 需要 “搜索 空 朵 
项 ”`\“ 搜 索 到 衬 朵 项 后 可 以 另 作 他 用 ”的 数据 结 
构 ， 都 需要 与 之 类 似 的 字段 。 比 如 inode_table[32] 
H, MARUF ° AIA F: 


/代码 路 径 : include/linux/fs.h: 
struct m_inode{ 

unsigned short i_mode; 
unsigned short i_uid; 

unsigned long i_size; 

unsigned long i_mtime; 


unsigned char i_gid; 


unsigned char i_nlinks; 
unsigned short i_zone[9]; 
/*these are in memory also*/ 
struct task_struct * i_wait; 
unsigned long i_atime; 
unsigned long i_ctime; 
unsigned short i_dev; 
unsigned short i_num; 
unsigned short i_count; 
unsigned char i_lock; 
unsigned char i_dirt; 
unsigned char i_pipe; 
unsigned char i_mount; 
unsigned char i_seek; 
unsigned char i_update; 


}; 


inode_table[32] 是 文件 管理 信息 ， 进 程 引 用 了 
文件 数据 块 所 对 应 的 缓冲 块 ， 也 就 必然 相应 地 引 
用 了 inode_table[32] 中 的 i 节点 项 ， 此 两 者 是 同步 
的 。 所 以 inode_table[32] 中 也 需要 i_count 这 一 字段 
来 标识 该 节点 项 被 多 少 进程 共享 了 。 如 采 没 被 共 
享 ， 则 i_count 束 古 0， 就 可 以 被 当做 空间 项 。 比 如 
进程 要 打开 一 个 从 未 打开 的 文件 ， 无 法 与 其 他 进 
程 共 至 i 广 点 项 时 ， 就 可 以 用 这 个 空 几 i 节点 项 来 六 


BUTI ° 


而 super_block[8] 则 与 此 不 同 ， 一 个 设备 就 一 
个 超级 块 项 目 ， 整 个 系统 束 只 能 安装 8 个 超级 块 ， 
这 都 是 有 数 的 。 一 个 超级 块 项 从 加 载 到 文件 系统 
Ba, ARSE IRE NEBR, PRO ee 
BAA ` GATT RSA EIA MTA UL o 2 Site 


可 以 加 载 相 同 的 文件 系统 ， 需 要 操作 相同 的 超级 


KR, (AWA A countix 


文 样 的 字段 来 记录 该 超级 块 


人 饭 引 用 的 次 数 。 代 码 如 下 : 


// 代 码 路 径 : include/linux/fs.h: 


struct super_block{ 

unsigned short s_ninodes; 
unsigned short s_nzones; 
unsigned short s_imap_blocks; 
unsigned short s_zmap_blocks; 


unsigned short s_firstdatazone; 


unsigned short s_log_zone_size; 


unsigned long s_max_size; 
unsigned short s_magic; 
/*These are only in memory*/ 


struct buffer_head * s_imap[8]; 


struct buffer_head * s_zmap[8]; 
unsigned short s_dev; 

struct m_inode * s_isup; 

struct m_inode * s_imount; 
unsigned long s_time; 

struct task_struct * s_wait; 
unsigned char s_lock; 

unsigned char s_rd_only; 
unsigned char s_dirt; 


}; 


从 以 上 代码 中 可 以 看 出 ， 没 有 类 似 count 的 字 


段 。 
值得 注意 的 是 ， 除 了 im 点 和 超级 块 外 ， 文 件 


官 理 信息 还 包括 ij 点 位 匈 和 远 和 模块 位 多。 这 两 尖 
文件 管理 信息 并 没有 专用 的 数据 结构 ， 但 它们 也 


要 文 持 共 享 。 它 们 存储 在 缓冲 块 中 ， 而 且 是 党 
驻 。 这 些 缓冲 块 只 为 市 点 位 图 、 逻 辑 块 位 图 使 


// 代 码 路 径 : fs/super.c: 


static struct super_block * read_super (int dev) 


ee 


for (i=0; i<s->s_imap_blocks; i++) // 往 缓冲 块 中 载 入 i 节点 位 


if (s->s imap[i]=bread (dev,block) ) 
block++; 

else 

break; 


for (i=0; i< s- > s_zmap_blocks; i++) // 往 缓冲 块 中 载 入 逻辑 块 
位 图 


if (s->s_zmap[i]=bread (dev,block) ) 


block++; 


else 
break; 


if (block! =2+s->s_imap_blocks+s->s_zmap_blocks) {// 如 果 出 
现 异 常情 况 ， 再 释放 


for (i=0; i<I MAP_SLOTS; i++) 
brelse (s->s imap[i]) ; 

for (i=0; i<Z_MAP_SLOTS; i++) 
brelse (s->s zmap[i]) ; 
s->s_dev=0; 

free super (s) ; 


return NULL; 


s->s_imap[0]- > b_data[0]|=1; 
s->s_zmap[0]- > b_data[0]|=1; 
free super (s) ; 


return sS; 


// 代 码 路 径 : fs/buffer.c: 
struct buffer head * bread (int dev,int block) / 读 取 底层 块 设备 数据 
{ 


struct buffer_head * bh; 


if (! (bh=getblk (dev,block) ) ) /申请 缓冲 块 时 要 用 到 设备 号 
和 块 号 


panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 
return bh; 


ee ee 


ee 


if (find_buffer (devblock) ) 
goto repeat; 


bh->b_count=1; W3 引 用 计数 为 1 


bh- > b_dirt=0; 


bh- > b_uptodate=0; 


从 以 上 代码 中 可 以 看 出 ，i 点 位 图 、 超 级 块 
位 图 载 入 缓冲 块 后 ， 这 些 绥 促 块 的 b_count 税 设置 
为 1， 之 后 并 没有 将 其 释放 过 ， 这 样 这 些 绥 促 块 的 
引用 计数 惑 无 法 还 原 为 0 了 “。 上 所 以 任何 进程 申请 新 
绥 冲 块 的 时 候 ， 痢 无 法 申请 到 它们 ， 所 以 这 些 绥 
THER BOA H ° 


7.5.3 b lock、*b wait 的 作用 


内 核 为 进程 申请 到 缓冲 块 ， 尤 其 是 申请 到 
b_count 为 0 的 缓冲 块 时 ， 因 为 同步 的 原因 ， 有 可 
能 这 个 缓冲 块 正在 与 硬盘 交互 数据 ， 为 此 
buffer head 结构 中 设置 了 b_lock 字 段 。 如 果 此 字段 
被 设置 为 1， 束 说 明正 在 和 硬盘 交互 数据 ， 内 核 就 
会 拦截 进程 对 该 缓冲 块 的 操作 ， 等 到 与 硬盘 的 交 
互 结束 上 时， 再 把 该 字段 设置 为 0%， 以 此 解除 对 进程 
方面 的 拦截 。 


如 果 为 进程 申请 到 的 缓冲 块 中 b_lock 字 上 段 被 
设置 为 1， 即 便 已 经 申请 到 了 ， 该 进程 也 需要 挂 
起 ， 直 到 该 缓冲 块 航 解 饭 后 ， 才 能 访问 。 在 缓冲 
块 被 加 锁 的 过 程 中 ， 而 且 无 论 有 多 少 进程 申请 到 


了 这 个 缓冲 块 ， 都 不 能 立即 操作 该 缓冲 块 ， 都 要 
挂 起 ， 并 切换 到 其 他 进程 去 执行 。 这 束 需 要 记录 
有 哪些 进程 因为 等 行 这 个 缓冲 块 的 解锁 而 被 挂 起 
了 。 由 于 使 用 了 进程 等 每 队列 ， 所 以 一 个 字段 整 


可 以 解决 这 个 记 孙 问题 。 这 个 字段 束 古 *b_wait ° 
这 两 个 字段 往往 是 联合 使 用 的 ， 我 们 来 看 如 
下 代码 。 


在 铺 速 以 前 ， 初 始 化 缓冲 块 的 了 时候，b_lock 
全 部 被 设置 为 0，*b_wait 被 设置 为 NULL ° 


// 代 码 路 径 : fs/buffer.c: 


void buffer_init (long buffer_end) 


h->b_dev=0; 


h- > b_dirt=0; 

h- > b_count=0; 

h- > b_lock=0; 

h- > b_uptodate=0; 

h- > b_wait=NULL; 

h- > b_next=NULL; 

h- > b_prev=NULL; 
h->b_data= (char *) b; 
h- > b_prev_free=h-1; 


h- > b_next_free=h+1; 


ee ee 


BATRA ae, PUREE ER, Bie 
先 把 该 块 加 锁 ， 即 把 b_lock 设 置 为 1， 然 后 进行 底 
层 控 作 。 执 行 代码 如 下 : 


RAS PRE: kernel/blk_drv/ll_rw_block.c: 


static void make_request (int major, int rw,struct buffer_head * bh) 


ee 


if (rw! =READ& &rw! =WRITE) 
panic ("Bad block dev command,must be R/W/RA/WA")_ ; 
lock _buffer (bh) ; // 给 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b dirt) || (rw==READ&&bh-> 
b_uptodate) ) { 


unlock buffer (bh) : 


return; 


ee 


di () ; 


while (bh->b_lock) /如 果 缓 冲 块 已 经 加 锁 
sleep _on (&bh->b_wait) ; /直接 将 进程 挂 起 
bh->b_lock=1; // 给 绥 冲 块 加 锁 

sti () ; 


缓冲 块 与 硬盘 效 据 块 开 始 交 互 数 据 时 ， 
lock_buffer () 函数 移 判 断 缓 冲 块 是 否 加 锁 。 如 
RIDT (很 有 可 能 该 缓冲 块 早 就 被 别 的 进程 申 
请 了 ， 现 在 正 与 硬盘 交互 数据 ) ， 融 直接 调用 
sleep_on () 函数 将 进程 挂 起 ， 并 切换 到 其 他 进程 
去 执行 。 等 到 将 来 切换 回 当 前 进程 后 ， 再 将 缓冲 
块 继 续 加 锁 。 如 且 没 加 锁 ， 吏 将 其 加 锁 ， 以 防 有 其 
他 进程 误 操 作 。b_lock 和 *b_wait 的 联 用 不 仅 体 现 
在 这 里 ， 其 他 只 要 需要 判断 缓冲 块 的 使 用 状态 
的 ， 都 需要 两 着 的 联 用 。 代 人 码 如 下 : 


/代码 路 径 : fs/buffer.c: 

struct buffer_head * bread (int dev,int block) 
{ 

struct buffer_head * bh; 

if (! (bh=getblk (dev,block) ) ) 

panic ("bread: getblk returned NULL\n") ; 
if (bh->b_uptodate) 

return bh; 

ll_rw_block (READ,bh) ; 


wait _on_buffer (bh) ; W/ 检 测 进程 是 否 需 要 等 待 缓 冲 块 解锁 


if (bh->b uptodate) 
return bh; 

brelse (bh) ; 

return NULL; 

} 


static inline void lock buffer (struct buffer head * bh) 


{ 

ci () ; 

while (bh->b_lock) /如 果 缓 冲 块 已 经 加 锁 
sleep _on (&bh->b_wait) ; /直接 将 进程 挂 起 
bh->b_lock=1; /给 缓冲 块 加 锁 

sti () ; 


} 
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// 代 码 路 人 径 : kernel/blk_drv/ll_rw_block.c: 


static void make_request (int major, int rw,struct buffer_head * bh) 


ee 


lock buffer (bh) ; 


if ( (rw==WRITE& & ! bh->b dirt) || (rw==READ& &bh-> 
b_uptodate) ) { 


unlock _buffer (bh) ; /给 缓冲 块 解锁 并 唤醒 进程 
return; 

} 

if (rw==READ) 


req=requestt+NR_REQUEST; 


static inline void unlock buffer (struct buffer head * bh) /给 缓冲 块 
解锁 并 唤醒 进程 


{ 

if (! bh->b_lock) 

printk ("ll_rw_block.c: buffer not locked\n\r") : 
bh- > b_lock=0; 

wake _up (&bh->b_wait) ; 


} 


读 盘 或 写 盘 结束 后 ， 中 断 服 务 程 序 执行 ， 会 
给 缓冲 块 解锁 ， 随 后 也 将 原来 等 和 该 缓冲 块 的 进 
程 唤 醒 。 人 代码 如 下 : 


/代码 路 径 : kernel/blk_drv/blk.h: 


extern inline void end_request (int uptodate) /处 理 请 求 项 操作 完毕 


后 的 善后 工作 
{ 
DEVICE _OFF (CURRENT->dev) ; 
if (CURRENT->bh) { 
CURRENT- > bh- > b_uptodate=uptodate; 
unlock _buffer (CURRENT-> bh) ; /给 缓冲 块 解锁 并 唤醒 进程 
} 
if (! uptodate) { 
printk (DEVICE_NAME"I/O error\n\r") ; 
printk ("dev%04x,block%d\n\r", CURRENT-> dev, 


CURRENT- >bh->b_blocknr) : 


ee ee 


static inline void unlock buffer (struct buffer head * bh) /给 缓冲 块 
解锁 并 唤醒 进程 


{ 

if (! bh->b_lock) 

printk (DEVICE_NAME": free buffer being unlocked\n") ; 
bh->b_lock=0; /给 缓冲 块 解锁 

wake _up (&bh->b_wait) ; /唤醒 等 待 缓 神 块 的 进程 


} 


7.5.4 i lock 、~i wait、s lock ^` *s_waitH 


作用 


在 共享 文件 内 容 时 ，b_lock 和 *b_wait 字 段 存 
在 于 缓冲 块 中 ， 共 译文 件 管理 信息 和 共 至 文件 内 
容 是 配套 的 ， 所 以 ， 文 件 管理 信息 的 数据 结构 也 
有 同样 类 似 的 字段 存在 ， 比 如 inode_table[32]， 
super_block[8] ° 代码 如 下 : 


/代码 路 径 : include/linux/fs.h: 
struct m_inode{ 

unsigned short i_mode; 
unsigned short i_uid; 

unsigned long i_size; 


unsigned long i_mtime; 


unsigned char i_gid; 
unsigned char i_nlinks; 
unsigned short i_zone[9]; 
/*these are in memory also*/ 
struct task_struct * i_wait; 
unsigned long i_atime; 
unsigned long i_ctime; 
unsigned short i_dev; 
unsigned short i_num; 
unsigned short i_count; 
unsigned char i_lock; 
unsigned char i_dirt; 
unsigned char i_pipe; 
unsigned char i_mount; 
unsigned char i_seek; 
unsigned char i_update; 


}; 


struct super_block{ 

unsigned short s_ninodes; 
unsigned short s_nzones; 
unsigned short s_imap_blocks; 
unsigned short s_zmap_blocks; 
unsigned short s_firstdatazone; 
unsigned short s_log_zone_size; 
unsigned long s_max_size; 
unsigned short s_magic; 
/*These are only in memory*/ 
struct buffer_head * s_imap[8]; 
struct buffer_head * s_zmap[8]; 
unsigned short s_dev; 

struct m_inode * s_isup; 

struct m_inode * s_imount; 
unsigned long s_time; 


struct task_struct * s_wait; 


unsigned char s_lock; 
unsigned char s_rd_only; 
unsigned char s_dirt; 


}; 
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中 都 存在 ， 而 且 ， 使 用 的 时 候 ， 也 是 联 用 的 ， 
为 它们 也 要 为 共享 服务 。 


inode_table[32] 中 i_lock 和 i wait 联 用 时 的 代码 
如 下 : 


// 代 码 路 径 : fs/inode.c: 


static void read_inode (struct m_inode * inode) // 读 节点 


lock inode (inode) ; iT ADN 


if (! (sb=get_super (inode->i_dev) ) ) 
panic ("trying to read inode without dev") ; 
* (struct d_inode *) inode= 

( (struct d_inode *) bh->b_data) 
[ (inode->i_num-1) %INODES_PER_BLOCK]; 
brelse (bh) ; 
unlock _inode (inode) ; // 给 节点 解锁 


} 


z 


static void write _inode (struct m_inode * inode) // 写 i 


lock inode (inode) ; // 给 i 节点 加 锁 
if (! inode->i_dirt||! inode->i_dev) { 
unlock inode (inode) : 


return; 


ee ee 


bh- > b_dirt=1; 

inode- > i_dirt=0; 

brelse (bh) ; 

unlock _inode (inode) ; // 给 i 节点 解锁 

} 

static inline void lock_inode (struct m_inode * inode) 
{ 

el 

while (inode->i_lock) // 如 果 i 闻 点 已 经 加 锁 

sleep _on (&inode->i_wait) ; // 将 进程 挂 起 
inode- >i_lock=1; // 给 i 节点 加 锁 

sti () ; 

} 

static inline void unlock_inode (struct m_inode * inode) 
{ 


inode->i_lock=0; // 给 i 节点 解锁 


wake _up (&inode->i_wait) ; /唤醒 等 待 太 点 解锁 的 进程 


} 


super_block[8] 中 s_lock 和 *s_wait 联 用 时 的 代 
IUN F: 


/代码 路 径 : fs/inode.c: 


static struct super_block * read_super (int dev) / 读 超 级 块 


s->s_time=0; 

s->s_rd_only=0; 

s->s_dirt=0; 

lock_super (s) ; /给 超级 块 加 锁 
if (! (bh=bread (dev, 1) ) ) { 
s->s_dev=0; 


free super (s) ; 


return NULL; 


s->s_imap[0]- > b_data[0]|=1; 
s->s_zmap[0]- > b_data[0]|=1; 
free _super (s) ; /给 超级 块 解锁 
return s; 

} 


void put_super (int dev) /释放 超级 块 


if (sb->s_imount) { 

printk ("Mounted disk changed-tssk,tssk\n\r") f 
return; 

} 

lock _super (s) ; /给 超级 块 加 锁 


sb- >s_dev=0; 


for (i=0; i<ILMAP_SLOTS; i++) 
brelse (sb->s_imap[i]) : 

for (i=0; i<Z_MAP_SLOTS; i++) 
brelse (sb->s_zmap[i]) ; 

free super (sb) ; 


free _super (s) ; /给 超级 块 解锁 


static void lock_super (struct super_block * sb) 

{ 

clin Ns 

while (sb->s_lock) /如 果 超 级 块 已 经 加 锁 
sleep on (& (sb->s_wait) ) ; /将 进程 挂 起 
sb->s_lock=1; /给 超级 块 加 锁 

sti () ; 

} 


static void free_super (struct super_block * sb) 


{ 

cdi () ; 

sb->s_lock=0; /给 超级 块 解锁 

wake up (& (sb->s_wait) ) ; /唤醒 等 待 超级 块 解锁 的 进程 
sti () ; 


} 


7.5.5 ”补充 request 的 作用 


缓冲 块 、i 放 点 、 超 级 块 等 结构 中 设置 的 字 
段 ， 为 进程 共 至 缓冲 块 建立 了 基础 ， 解 决 了 “能 共 
圣 还 古 不 能 共 至 ”的 问题 。 下 面 介绍 如 何 更 局 效 地 
HERIR 。 


本 让 到 这 里 介绍 了 绥 冲 块 在 进程 方 同上 延伸 
的 使 用 问题 。 下 面 介 绍 在 便 盘 方 呵 上 延伸 的 使 用 
问题 。 我 们 来 看 请 求 项 的 数据 结构 ， 代 但 如 下 : 


/代码 路 径 : kernel/blk_drv/BIk.h: 
struct request{ 

int dev; /*-1 if no request*/ 
intcmd; /*READ or WRITE*/ 


int errors; 


unsigned long sector; 
unsigned long nr_sectors; 
char * buffer; 

struct task_struct * waiting; 
struct buffer_head * bh; 
struct request * next; 


} 


papara 进行 交互 ， 所 以 要 明 
确 是 读 交 互 还 是 写 交 互 ， 为 此 设计 了 cmd 字 段 ; 
此 外 ， 还 需要 明确 是 哪个 缓冲 块 要 进行 交互 ， 比 
如 *bh 和 *buffer 字 段 ; 还 需要 考虑 数据 块 与 而 区 的 
映射 规则 ， 比 如 sector 和 nr_sectors 字 段 ， 还 需要 考 
虑 如 宁 交 互 出 现 了 问题 怎么 办 ， 用 errors 记 录 出 现 
问题 的 次 数 。 这 些 字 段 都 是 为 了 与 便 熏 区 互 设 置 
的 。 


硬盘 方向 完全 是 某 个 缓冲 块 和 某 个 数据 块 一 
对 一 的 交互 ， 不 存在 共享 问题 ， 所 以 请 求 项 中 也 
就 没有 类 似 b_count 的 字段 ， 请 求 项 对 交互 状况 的 
记录 ， 只 存在 两 种 状态 : 忙 、 空 间 。 因 此 dev 字 段 
不 仅 代表 设备 号 ， 还 可 以 通过 它 来 判断 请 求 项 是 
否 正 在 被 占用 ， 代 码 如 下 : 


// 代 码 路 径 : kernel/blk_drv/ll_rw_block.c: 
void blk_dev_init (void) 

| 

int 1; 


for (i=0; i<NR REQUEST; i++) { 


request[i].dev=-1; // 把 设备 号 设置 为 -1， 标 志 着 请 求 项 都 是 空 闻 的 
request[i].next=NULL; 
} 


} 


static void make_request (int major, int rw,struct buffer_head * bh) 


/*find an empty request*/ 

while (--req>=request) // 找 一 个 空 闻 的 请 求 项 

if (req->dev<0) /小 于 0， 那 肯定 就 是 -1 了 ， 说 明 空 亲 
break; 


req- > dev=bh->b_dev; /用 设备 号 来 设置 dev， 那 就 肯定 不 是 -1 
设备 号 没有 -1 这 个 值 


req- > cmd=rw; 

req- > errors=0; 

req- > sector=bh- > b_blocknr< <1; 
req- > nr_sectors=2; 

req- > buffer=bh- > b_data; 

req- > waiting=NULL; 


req- > bh=bh; 


req- > next=NULL; 

add _request (major+blk_dev,req) ; 
} 

/代码 路 径 : kernel/blk_drv/BIk.h: 


extern inline void end_request (int uptodate) 


wake _up (&CURRENT-> waiting) ; 
wake _up (&wait_for_request) ; 


CURRENT > dev=-1; /一 个 请 求 项 的 任务 完成 后 ， 立 即将 这 个 请 
求 项 设置 为 空闲 


CURRENT=CURRENT- > next; 


} 


另外 值得 注意 的 是 ， 请 求 项 request 设 置 为 
32， 尽 可 能 地 实现 了 主机 和 硬盘 数据 交互 的 平 
衡 ， 但 这 种 平衡 并 不 绝对 ， 比 如 说 ， 写 盘 过 于 烽 


村 ， 或 者 由 于 硬盘 目 身 出 现 故障 ， 寻 致 数据 交互 
失败 ， 束 有 可 能 在 请 求 项 中 积压 数据 ， 最 终 寻 致 
请 求 项 不 够 用 了 。 那 么 内 核 即 便 为 进程 申请 到 了 
缕 冲 块 ， 而 由 于 没有 请 求 项 ， 进 程 也 只 能 馈 挂 
起 ， 同 样 也 需要 字段 来 记录 哪个 进程 被 挂 起 了 。 
*“waiting 记 也 挂 起 的 进程 ， 代 码 如 下 : 


RAS PRE: kernel/blk_drv/ll_rw_block.c: 


static void make_request (int major, int rw,struct buffer_head * bh) 


if (req<request) {// 没 找到 空间 的 请 求 项 
if (rw ahead) { 

unlock _buffer (bh) ; 

return; 


} 


sleep _on (&wait_for_request) ; /进程 就 挂 起 了 
goto repeat; 
} 


} 


等 到 有 了 空闲 请 求 项 ， 再 唤醒 进程 ， 代 码 如 
下 : 


// 代 码 路 径 : kernel/blk_drv/blk.h: 


extern inline void end_request (int uptodate) 


wake up (&CURRENT-> waiting) : 

wake up (&wait_for_request) ; // 等 待 请 求 项 的 进程 被 唤醒 
CURRENT- > dev=-1; 

CURRENT=CURRENT- > next; 


} 


同 理 ， 多 个 进程 也 可 能 都 由 于 等 得 时 个 请 求 
项 被 挂 起 ，*waiting 一 个 字段 是 无 法 记录 的 ， 同 样 
需要 进程 等 每 队列 解决 这 个 问题 。 本 小 市 前 面 也 
所 到 了 用 *b_waite 了 永 等 行 缓冲 块 解锁 的 进程 ， 这 
里 的 *waiting 与 此 类 似 ， 都 需要 用 到 进程 等 竺 队列 
的 技巧 来 完成 对 多 个 等 每 进程 的 记录 。 


7.6 SPL: APRA EES FF 
队列 


下 面 我 们 通过 一 个 多 进程 操作 相同 文件 的 对 
例 ， 一 方面 把 共 至 地 问题 形象 地 进行 体现 ， 男 一 
方面 把 进程 等 每 队列 的 原理 讲解 消 楚 。 


假设 硬盘 上 已 有 一 个 文件 名 为 hello.txt 的 文 
件 ， 这 个 文件 的 大 小 为 700 B， 小 于 一 个 数据 块 大 
小 (1 KB) ， 被 载 入 缓冲 区 后 ， 一 个 缓冲 块 就 可 
以 承载 其 全 部 内 容 ， 这 三 个 进程 一 旦 开始 操作 这 
个 文件 ， 束 相当 于 在 依托 系统 操作 同一 个 缓冲 
块 ， 这 样 融会 产生 进程 等 竺 队列 。 本 三 将 详细 介 
绍 该 队列 的 产生 过 程 ， 以 及 队列 中 进程 的 唤醒 过 
程 。 


下 面 我 们 来 介绍 实例 1 的 场景 。 


进程 A 是 一 个 读 盘 进程 ， 目 的 古 将 hello.txt 文 
件 中 的 100 字 地 旋 入 buffer[100]， 代 人 码 如 下 : 


void FunA () ; 


void main () 


void FunA () 

{ 

char buffer[100]; 
int i,j; 


/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


// 读 文件 

read (fd,buffer,sizeof (buffer) ) ; 

/关闭 文件 

close (fd) ; 

for (i=0; i<1000000; i++) /W/ 消 耗 时 间 片 
{ 

for (j=0; j<1000000; j++) 


{ 


return; 


} 


进程 B 也 是 一 个 读 盘 进程 ， 目 的 是 将 hello.txt 
文件 中 的 200 字 和 读 入 buffer[200]， 人 代码 如 下 : 


void FunB () ; 


void main () 


void FunB () 

{ 

char buffer[200]: 
int ij; 

UTA XAF 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) 


// 读 文件 

read (fd,buffer,sizeof (buffer) ) ; 

/关闭 文件 

close (fd) ; 

for (i=0; i<1000000; i++) //TR#ERY TAIT 
{ 

for (j=0; j<1000000; j++) 


{ 


} 
} 


return; 


} 


进程 C 古 一 个 写 盘 进程 ， 日 的 是 往 hello.txt 文 
件 中 写 入 str1[] 中 的 字符 “ABCDE”， 代 码 如 下 : 


void FunC () ; 


void main () 


ee 


ee ee 


void FunC () 


char str1[]="ABCDE"; 
int i,j; 
/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello.txt", O_RDWR, 
0644) ) ; 


// 写 文件 
write (fd,strl, strlen (str1) ) ; 


/关闭 文件 


close (fd) ; 

for (i=0; i<1000000; i++) /W/ 消 耗 时 间 片 
{ 

for (j=0; j<1000000; j++) 


{ 


} 
} 
return; 


} 


这 三 个 进程 执行 顺序 为 : 进程 A 和 多 执行 ， 之 
后 进程 B 执 行 ， 最 后 进程 C 执 行 。 这 三 个 进程 没有 
KFR 


下 面 我 们 来 看 具体 的 执行 过 程 。 


进程 A 谈 取 文 件 后 被 挂 起 


进程 A 局 动 后 ， 执 行 “int fd=open 
(“/mnt/user/user1/user2/hello.txt”, O_RDWR, 
0644) ) ; ”, open () 函数 最 终 会 映射 到 
sys_open () 函数 去 执行 。sys_open () 函数 的 执 
行情 况 ， 已 在 第 5 章 中 介绍 。 代 码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


她 (current-> filp[fd]=f) ->f_count++; // 将 进程 A 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


ee 


if ( (i=open_namei (filename,flag,mode, &inode) ) <0) {/ 获 
取 hello.txt 文 件 i 点 


f->f_mode=inode->i_mode; // 用 该 节点 属性 ， 设 置 文件 属性 
f->f_flags=flag; /用 flag 参 数 ， 设 置 文件 操作 方式 
f->f_count=1; // 将 文件 引用 计数 加 1 

f->f_inode=inode; // 文 件 与 节点 建立 关系 


f->f_pos=0; // 将 文件 读 写 指针 设置 为 0 


retum (fd) ; /把 文件 句柄 返 给 用 户 空间 


} 


执行 情景 如 图 7-12 所 示 。 
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图 7-12 系统 为 进程 A 打 开 hello.txt 文 件 


之 后 执行 “read (fd,buffer,sizeof 
(buffer) ) ”，read () 画 数 最 终 会 映射 到 
sys_read () 函数 去 执行 ;之 后 ，sys_read () K 
数 调用 fle_read () 画 数 来 读 取 文件 内 容 ; 


file read () KH bread () 函数 从 硬盘 上 读 
取 数 据 。 执 行 代码 如 下 : 


// 代 码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) // 从 hello.txt 文 件 
中 读数 据 


{/fd 是 文件 句柄 ，buf 是 用 户 空 间 指 针 ，count 是 要 读 取 的 字 市 数 
if (S_ISDIR (inode->i_mode) ||S_ISREG (inode->i_mode) ) { 
if (count+file- > f_pos > inode- > i_size) 

count=inode- > i_size-file- > f_pos; 

if (count < =0) 

return 0; 

return file_read (inode,file,buf,count) ; V/ 读 取 进 程 指定 数据 


printk (" (Read) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; 


return-EINVAL; 


} 
/代码 路 径 : fs/file_dev.c: 


int file read (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


ee ee 


if (nr=bmap (inode, (filp->f pos) /BLOCK_SIZE) ) { 

if (! (bh=bread (inode->i_dev,nr) ) ) /从 硬盘 上 读 取 数据 
break; 

}else 


bh=NULL; 


ee 


进入 bread () 函数 后 的 执行 过 程 ， 我 们 在 
3.3.1 世 中 已 经 详细 说 明 。 执 行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_ head * bread (int dev,int block) /从 硬盘 上 读 取 数据 


ee ee 


if (! (bh=getblk (dev,block) ) ) /申请 一 个 空闲 的 缓冲 块 


ee ee 


ll_rw_block (READ,bh) ; /将 该 缓 神 块 加 锁 并 与 请 求 项 绑 定 ， 
发 送 读 盘 指令 


wait _on_buffer (bh) ; /如 果 有 等 待 缓冲 块 解锁 的 进程 ， 就 将 其 
挂 起 


if (bh->b_uptodate) 
return bh; ...... 


} 


进程 A 的 挂 起 工作 是 在 wait on_buffer () EK 
数 中 完成 的 ， 执 行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


static inline void wait_on_buffer (struct buffer head * bh) /如 果 有 
SE HER ARS, RFE EE 


{ 
ci () ; /关中 断 
while (bh->b_lock) /检测 缓冲 块 是 否 已 经 加 锁 


sleep _on (&bh->b_wait) ; // 将 等 待 该 缓冲 块 的 进程 (进程 A) 
挂 起 ， 并 切换 进程 


sti O ; FFT 


} 


在 ]L_rw_block O 函数 执行 时 ， 绥 冲 块 已 经 
被 加 锁 (本 书 3.3.1.3 节 中 已 介绍 ) ° while (bh-> 
block) 条 件 为 真 ， 之 后 调用 sleep_on () RY, 
传递 的 实 参 是 &bh->>b_wait。 其 中 bh->b_wait 表 
示 等 待 该 缓冲 块 解 锁 的 进程 指针 。 由 于 系统 在 初 
台 化 时 ， 已 经 将 所 有 缓冲 块 中 b_wait 的 值 设置 为 
NULL， 此 缓冲 块 又 是 新 申请 的 ， 从 来 没有 被 其 


他 进程 用 过 ， 所 以 此 时 bh->b_wait 的 值 为 
NULL 。 下 面 进 入 sleep_on () NaN, PTS 
下 : 


/代码 路 径 : kernel/sched.c: 

void sleep_on (struct task_struct ** p) 

{ 

struct task_struct * tmp; 

if (! p) 

return; 

if (current==& (init_task.task) ) 

panic ("task[O]trying to sleep") : 

tmp=*p; /此 时 tmp 中 保存 的 是 NULL 
*p=current; //*p 中 保存 的 是 进程 A 的 指针 


current- > state=TASK_UNINTERRUPTIBLE; // 将 进程 A 设置 为 不 
可 中 断 等 待 状态 


schedule () ; /切换 进程 


if (tmp) 
tmp- > state=0; 


} 


从 前 面 对 sleep_on () 画 数 的 实 参 的 介绍 中 我 
们 得 知 ，*p 指 向 的 是 bh- >b_wait。sp 中 保存 了 进 
程 A 的 指针 ， 意 味 厦 进程 A 此 时 正在 等 竺 bh 这 个 组 
冲 块 解锁 。 


进程 A 被 挂 起 后 ， 调 用 schedule O HAL, W 
换 到 进程 B 执 行 。 


与 此 同时 ， 便 盘 也 正在 同 数 据 寄存 项 妆 口 中 
传 带 数 据 ， 此 情景 如 图 7-13 所 示 。 
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7-13 ”系统 为 进程 A 读 取 hello.txt 的 数据 并 将 
进程 A 挂 起 


图 7-13 中 代表 进程 A 的 进程 条 已 经 变 成 了 灰 
色 ， 表 示 进 程 A 已 经 挂 起 。 
值得 注意 的 是 ， 代 码 中 的 tmp 存 储 在 进程 A 的 


内 核 栈 中 ， 存 储 的 是 NULL,bh- >>b wait 此 时 存储 
的 是 进程 A 的 指针 ， 如 图 7-14 所 示 。 


7-14 ”进程 A 被 挂 起 
进程 B 读 取 文 件 后 个 挂 起 


进程 B 自 完 执行 “int fd=open 
(“/mnt/user/user1/user2/hello.txt”, O RDWR, 
0644) ) ; ”这 行 代码 。open () KÄRA SHA 
到 sys_open () 函数 去 执行 ;sys_open () KAS 
在 文件 管理 表 file_table[64] 中 新 申请 一 个 空 几 表 


页 ， 让 进程 B task_struct 中 的 *filp[20] 与 
file_table[64] 至 表 项 挂 接 。 虽 然 进程 B 和 进程 A 打 
开 的 是 相同 的 文件 ， 但 实例 1 中 ， 这 两 个 进程 彼此 
对 文件 的 操作 没有 关系， 所 以 需要 两 套 账 本 。 


执行 代码 如 下 : 


// 代 码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


for (fd=0; fd<NR OPEN: fd++) 


if (! current-> filp[fd]) 


ee ee 


for (i=0; i<NR FILE; i++, f++) 


if (! f->f count) break; 


ee ee 


(current- > filp [fd]=f) ->f_count++; /将 进程 B 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


if ( (i=open_namei (filename,flagmode, &inode) ) <0) {/ 获 
取 hello.txt 文 件 i 点 


f->f_mode=inode->i_mode; /用 该 证 点 属性 ， 设 置 文件 属性 
f->f_flags=flag; /用 flag 参 数 ， 设 置 文件 操作 方式 
f->f_count=1; // 将 文件 引用 计数 加 1 

f->f_inode=inode; /文件 与 i 点 建立 关系 


f->f_pos=0; /将 文件 读 写 指针 设置 为 0 


return (fd) ; /把 文件 句柄 返 给 用 户 空间 


} 


挂 搂 的 情景 如 图 7-15 所 示 。 


便 盘 还 在 不 断 地 该 出 数据 ， 刚 才 进 程 A 的 读 
盘 请 求 还 没有 完成 。 
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图 7-15 ”系统 将 flp[20] 与 fle_table[64] 挂 接 


之 后 调用 open_namei () 函数 ， 获 取 hello.txt 
文件 的 i 节点， 并 最 终 将 i 闻 点 与 他 e_table[64] 相 挂 
接 ， 执 行 代码 如 下 : 


/代码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


ee 


if ( (i=open_namei (filename,flag,mode, &inode) ) <0) {/ 获 
Fvhello.txt CFF A, 


f->f mode=inode->i_mode; // 用 该 i 节点 属性 ， 设 置 文件 属性 
f->f_flags=flag; // 用 flag 参 数 ， 设 置 文件 操作 方式 
f->f_count=1; // 将 文件 引用 计数 加 1 


f->f_inode=inode; /文件 与 i 节 点 建立 关系 


f->f_pos=0; /将 文件 读 写 指针 设置 为 0 
return (fd) ; /把 文件 句柄 返 给 用 户 空间 


} 


值得 注意 的 是 ， 此 次 获取 hello.txt 文 件 的 节 
点 ， 与 进程 A 获取 该 节点 有 所 不 同 ， 代 码 如 下 ; 


/代码 路 径 : fs/namei.c: 


int open_namei (const char * pathname, int flag,int mode, 


struct m_inode ** res_inode) 


ee ee 


if (flag&O_EXCL) 
return-EEXIST; 
if (! (inode=iget (dev,inr) ) ) /获取 证 点 


return-EACCES; 


/代码 路 径 : fs/namei.c: 


struct m_inode * iget (int dev,int nr) 


ee ee 


项 


> 


while (inode<NR_INODE+inode table) {// 遍 历 整个 
inode_table[32] 


if (inode->i_dev! =dev|linode->i_num! =nr) {// 如 果 没 有 找到 现 
成 的 表 项 ， 束 继续 找 


continue; 

} 

wait _on_inode (inode) ; 

if (inode->i_dev! =dev||inode->i_num! =nr) { 


continue; 


} 


inode->i_countt++; // 找 到 了 现成 的 hello.txt 文 件 的 i 节点 ，3 引 | 用 计 
数 增加 


ee 


if (empty) /在 inode_table[32] 中 找到 的 空闲 表 项 已 经 没 用 了 ， 将 
其 释放 


iput (empty) 


return inode; // 将 hello.txt 文 件 的 i 节点 返回 


申请 至 而 让 点 的 情景 如 图 7-16 所 示 。 
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一 个 文件 只 能 对 应 一 个 节点。 进程 A 和 进程 
B 对 文件 的 操作 ， 需 要 两 本 账 来 记 孙 。 但 它们 操 
作 有 的 hello.txt 文 件 的 i 节操 只 能 有 有 一 个 ， 而 进程 A 已 
经 把 i 节点 载 入 了 inode_table[32]， 现 在 进程 B 就 要 
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图 7-17 系统 为 进程 B 找 到 了 hello.txt 文 件 已 经 
ERA HJIT A, 


文件 打开 后 ， 进 程 B 执 行 “read 
(fd,buffersizeof (buffer) ) ; ”这 行 代码 ， 读 取 
hello.txt 文 件 的 内 容 。 


read () 函数 最 终 会 映射 到 sys_read () KZ 
去 执行 ， 之 后 ，sys_read () 函数 调用 file_read 
O RACE REA TFAIZ, file_read () 函数 调用 
bread () 函数 从 便 一 上 读 取 数据 ， 执 行 代码 如 
F: 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) /从 hello.txt 文 件 
中 读数 据 


{//fd 十 文件 句柄 ，buf 是 用 户 空间 指针 ，count 是 要 读 取 的 字 市 数 
if (S_ISDIR (inode->i_mode) ||S_ISREG (inode->i_mode) ) { 
if (count+file- > f_pos > inode- > i_size) 

count=inode- > i_size-file- > f_pos; 

if (count <=0) 

return 0; 


return file read (inode,file,buf,count) ; V 读 取 进 程 指定 数据 


} 


printk (" (Read) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; 


return-EINVAL; 
} 
// 代 码 路 径 : fs/file_dev.c: 


int file read (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


ee 


if (nr=bmap (inode, (filp->f pos) /BLOCK_SIZE) ) { 

if (! (bh=bread (inode->i_dev,nr) ) ) /从 硬盘 上 读 取 数据 
break; 

yelse 


bh=NULL; 


ee ee 


进入 bread () 函数 后 的 执行 过 程 ， 我 们 在 
3.3.1 世 中 已 经 详细 说 明 。 执 行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_ head * bread (int dev,int block) /从 硬 合 上 读 取 数据 


if (! (bh=getblk (dev,block) ) ) // 申 请 一 个 空 内 的 缓冲 块 


ll_rw_block (READ,bh) ; /将 该 缓冲 块 加 锁 并 与 请 求 项 绑 定 ， 
发 送 读 盘 指令 


wait _on_buffer (bh) ; /如 果 有 等 待 缓冲 块 解锁 的 进程 ， 就 将 其 
挂 起 


if (bh->b_uptodate) 
return bh; 


ee ee 


其 中 getblk O 画 数 和 1]_rw_block O BRAY 
执行 情景 有 所 不 同 。 进 入 getblk () 画 数 后 ， 由 于 
hello.txt 文 件 对 应 的 数据 块 已 被 载 入 绥 冲 区 ， 直 接 
返回 ， 代 码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 


if (bh=get_hash_table (dev,block) ) /此 时 在 哈 希 表 中 可 以 找到 
指定 的 缓冲 块 


return bh; /直接 返回 bh 指 针 


后 执行 1_rw_block () 函数 。 由 于 缓冲 块 
经 被 加 锁 ， 所 以 进程 B 将 因 等 待 该 缓冲 块 解锁 


而 被 系统 挂 起 ， 执 行 代 码 如 下 : 


/代码 路 径 : kernel/blk_drv/ll_rw_block.c: 

void ll_rw_block (int rw,struct buffer head * bh) 

{ 

unsigned int major; 

if ( (major=MAJOR (bh->b dev) ) >=NR_BLK_DEV|| 
! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 
return; 

} 

make request (majorrw,bh) ; /设置 请 求 项 

} 


static void make_request (int major, int rw,struct buffer_head * bh) 


lock buffer (bh) ; // 将 bh 指向 的 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b dirt) || (rw==READ& &bh-> 
b_uptodate) ) { 


unlock buffer (bh) : 


return; 


ee ee 


static inline void lock_buffer (struct buffer head * bh) /给 缓冲 块 加 
Eyi 


{ 

cli () ; 

while (bh->b_lock) /如 果 缓 神 块 已 经 加 锁 

sleep _on (S&¢bh->b_wait) ; // 就 将 等 得 缓冲 块 解锁 的 进程 挂 起 


bh->b_lock=1; /程序 执行 到 这 里 ， 说 明 缓 冲 块 此 时 没有 加 锁 ， 
于 是 给 它 加 锁 


sti () ; 


} 


接 下 来 执行 sheep_on () 函数 。 因 为 实例 1 中 
进程 A 和 进程 B 操 作 的 古 同 一 文件 ， 对 应 相同 的 绥 
冲 块 bh， 该 缓冲 块 中 b_wait 的 值 被 设置 为 进程 A 的 
task_struct 指 针 ， 所 以 此 次 执行 sheep_on () kav 
的 情景 ， 与 前 面 进程 A 执 行 时 的 情景 完全 不 同 ， 
代码 如 下 : 


/代码 路 径 : kernel/sched.c: 

void sleep_on (struct task_struct ** p) 
{ 

struct task_struct * tmp; 

if (! p) 

return; 

if (current==& (init_task.task) ) 
panic ("task[OJ]trying to sleep") ; 


tmp=*p; // 此 时 tmp 中 保存 的 是 进程 A 的 task_struct 指 针 


*p=current; //*p 中 保存 的 是 进程 B 的 task_struct 指 针 


current- > state=TASK_UNINTERRUPTIBLE; /将 进程 B 设 置 为 不 
可 中 断 等 竺 状态 


schedule () ; /切换 进程 
if (tmp) 
tmp- > state=0; 


} 


进程 B 被 挂 起 后 ， 调 用 schedule O HX, W 
换 到 进程 C 执 行 。 


与 此 同时 ， 便 盘 也 正在 同 数 据 寄存 大 闪 口中 
传 带 数 据 ， 此 情景 如 图 7-18 所 示 。 
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图 7-18 进程 B 被 挂 起 的 情景 


值得 注意 的 是 ， 代 码 中 的 tnp 存 储 在 进程 B 的 
内 核 栈 中 ， 存 储 的 是 进程 A 的 task_struct 指 针 ，bh- 
>b_wait 此 时 存储 的 是 进程 B 的 指针 ， 如 网 7-19 所 
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7-19 ”进程 B 馈 挂 起 ， 构 成 进程 等 每 队列 的 情 
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3. 进 程 C 写 文件 后 被 挂 起 


进 往 C 开 始 执行 后 ， 辣 样 操 作 hello.txt 驻 件 ， 
器 该 文件 中 写 入 数据 。 进 程 C 执 行 的 技术 路 线 与 
进程 B 大 体 一 人 致 ， 先 执行 “int fd=open 
(“/mnt/user/user1/user2/hello.txt”, O_RDWR, 
0644) ) ; ”这 行 代 码 ，open O 函数 最 终 会 映射 


到 sys_open () 函数 去 执行 。sys_open () ERR 
终 的 执行 结果 为 ， 在 fie_table[64] 中 再 次 申请 一 个 
ZAR, FEC task_struct 中 的 *filp[20] 与 
file_table[64] 中 的 空间 表 项 挂 授 。 


之 后 sys_open () KŽ Hopen namei () 
画 数 ， 同 样 会 在 i 节点 表 inode_table[32] 中 找到 该 
文件 的 证 点 ， 该 i 点 的 引用 计数 再 次 加 1， 执 行 
代码 如 下 : 


// 代 码 路 径 : fs/open.c: 


int sys_open (const char * filename,int flag,int mode) 


ee ee 


(current- > filp [fd]=f) ->f_count++; /将 进程 C 的 *filp[20] 与 
file_table[64] 对 应 项 挂 接 ， 并 增加 文件 句柄 计数 


if ( (i=open_namei (filename,flag,mode, &inode) ) <0) {/ 获 
取 hello.txt 文 件 i 节 点 


f->f_mode=inode->i_mode; // 用 该 i 闻 点 属性 ， 设 置 文件 属性 
f- >f flags=flag; /用 flag 参 数 ， 设 置 文件 操作 方式 
f->f_count=1; /将 文件 引用 计数 加 1 

f->f_inode=inode; /文件 与 i 节 点 建立 关系 


f->f_pos=0; /将 文件 读 写 指针 设置 为 0 


return (fd) ; /把 文件 句柄 返 给 用 户 空 间 


} 


此 情景 如 图 7-20 所 示 。 


t 
当前 进程 


图 7-20 ”进程 C 准 备 读 取 hello.txt 文 件 


进程 C 继 续 执行 “write (fd,str1, strlen 
(str1) ) ; ”这 行 代码 ， 往 hello.txt 文 件 写 入 数 
据 。 


write () 函数 最 终 会 映射 到 sys_write () BN 
数 去 执行 ，sys_write () 函数 调用 fle_ write () 
函数 来 读 取 文 件 内 容 ，file_ write () 函数 调用 
bread () 函数 从 硬 一 上 读 取 数据 ， 执 行 代码 如 
下 : 


ARG BEE: fs/read_write.c: 


int sys_write (unsigned int fd,char * buf,int count) // 癌 hello.txt 文 件 
中 写 入 数据 


{/fd 是 文件 句柄 ，buf 是 用 户 空间 指针 ，count 是 要 写 入 的 字 届 数 
if (S_ISBLK (inode->i_mode) ) 


return block write (inode->i_zone[0], &file-> 
f_pos,buf,count) ; 


if (S_ISREG (inode->i_mode) ) 
return file write (inode,file,buf,count) ; // 写 入 进程 指定 数据 


printk (" (Write) inode->i_mode=%06o\n\r", inode-> 
i_mode) ; 


return-EINVAL; 
} 
/代码 路 径 : fs/file_dev.c: 


int file write (struct m_inode * inode,struct file * filp,char * buf, int 
count) 


if (! (block=create_block (inode,pos/BLOCK_SIZE) ) ) 
break; 

if (! (bh=bread (inode->i_dev,nr) ) ) // 往 硬盘 上 写 入 数据 
c=pos%BLOCK_SIZE; 

p=c+bh- > b_data; 


bh- > b_dirt=1; 


ee ee 


进入 bread O 函数 后 的 执行 过 程 ， 与 进程 B 
一 致 ， 执 行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_ head * bread (int dev,int block) /从 硬 嫩 上 读 取 数据 


if (! (bh=getblk (dev,block) ) ) // 申 请 一 个 空 内 的 缓冲 块 


ll_rw_block (READ,bh) ; /将 该 缓冲 块 加 锁 并 与 请 求 项 绑 定 ， 
发 送 读 盘 指令 


wait _on_buffer (bh) ; /如 果 有 等 待 缓冲 块 解锁 的 进程 ， 就 将 其 
挂 起 


if (bh->b_uptodate) 
return bh; 


ee 


进入 getblk O 函数 后 ， 由 于 hello.txt 文 件 对 
应 的 数据 块 已 破 载 入 缓冲 区 ， 和 直接 返回 ， 代 码 如 
下 : 


// 代 码 路 人 径 : fs/buffer.c: 

struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 
{ 

struct buffer_head * tmp, *bh; 

repeat: 


if (bh=get_hash_table (dev,block) ) /此 时 在 哈 希 表 中 可 以 找到 
指定 的 缓冲 块 


return bh; /直接 返回 bh 指 针 
tmp=free_list; 


eoccce 


执行 rw_block () 函数 。 由 于 缓冲 块 已 经 
被 加 锁 ， 所 以 进程 C 也 将 因 等 待 该 缓冲 块 解锁 而 
被 系统 挂 起 (操作 的 是 相同 的 缓冲 块 ， 执 行 代 
码 如 下 : 


/代码 路 径 : kernel/blk_drv/ll_rw_block.c: 

void ll_rw_block (int rw,struct buffer_head * bh) 

{ 

unsigned int major; 

if ( (major=MAJOR (bh->b dev) ) >=NR_BLK_DEV| 
! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 
return; 

} 

make request (majorrw,bh) ; /设置 请 求 项 


} 


static void make_request (int major, int rw,struct buffer_head * bh) 


lock buffer (bh) ; // 将 bh 指向 的 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b dirt) || (rw==READ&&bh-> 
b_uptodate) ) { 


unlock buffer (bh) : 


return; 


ee ee 


static inline void lock_buffer (struct buffer head * bh) /给 缓冲 块 加 
‘yt 


{ 

cli Q ; 

while (bh->b_lock) // 如 果 缓 冲 块 已 经 加 锁 

sleep_on (S&¢bh->b_wait) ; / 怠 将 等 待 缓冲 块 解锁 的 进程 挂 起 


bh->b_lock=1; /程序 执行 到 这 里 ， 说 明 缓 冲 块 此 时 没有 加 锁 ， 
于 是 给 它 加 锁 


sti () ; 


接 下 来 执行 sheep_on () 函数 。 因 为 实例 1 中 
进程 A、 进 程 B 和 进程 C 操 作 有 的 是 同一 文件 ， 对 应 
相同 的 缓冲 块 bh， 我 们 已 经 介绍 到 该 组 促 块 中 
b_wait 的 值 被 设置 为 进程 B 的 task_struct 指 秆 ， 所 
以 此 次 执行 sheep_on () 芳 数 的 情景 ， 与 前 面 进 
程 B 执 行 时 的 情景 完全 不 同 ， 代 码 如 下 : 


/代码 路 径 : kernel/sched.c: 

void sleep_on (struct task_struct ** p) 
{ 

struct task_struct * tmp; 

if (! p) 

return; 


if (current==& (init task.task) ) 


panic ("task[OJ]trying to sleep") ; 
tmp=*p; /此 时 tmp 中 保存 的 是 进程 B 的 task_struct 指 针 
*p=current; /sp 中 保存 的 是 进程 C 的 task_struct 指 针 


current- > state=TASK_UNINTERRUPTIBLE; /将 进程 C 设 置 为 不 
可 中 断 等 竺 状态 


schedule () ; /切换 进程 
if (tmp) 
tmp- > state=0; 


} 


进程 C 被 挂 起 后 ， 调 用 schedule O RX, it 
时 系统 中 已 经 没有 就 绪 的 进程 了 ， 因 此 切换 到 进 
程 0 执行 。 


与 此 同时 ， 便 盘 也 正在 同 数 据 寄存 硕 妆 口中 
传 带 数 据 ， 此 情景 如 图 7-21 所 示 。 
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7-21 ”进程 C 被 挂 起 后 的 情景 


值得 注意 的 是 ， 代 码 中 的 tmp 存 储 在 进程 C 的 
内 核 栈 中 ， 存 储 的 是 进程 B 的 task_struct 指 针 ，bh- 
>b_wait 此 时 存储 的 是 进程 C 的 指针 ， 如 图 7-22 所 


光 ° 


内 核 栈 1 [一 5 a ”内 核 栈 ee] ”内 核 栈 


| EAL 


atk ruct task struct task_strict 4 


Al 7-22 进程 C 锌 挂 起 ， 加 入 等 竺 队列 的 情景 


此 时 的 情况 是 ， 三 个 进程 因 等 待 bh 缓 冲 块 解 
凯 而 被 系统 挂 起 ， 于 十 形成 了 一 个 等 竺 队列 。 持 
起 前 ， 每 个 进程 的 内 核 栈 中 都 保 存 看 前 面 被 挂 起 
进程 的 task_struct 指 秆 。 图 7-22 表 现 的 束 古 这 个 等 
竺 队列 。 这 个 队列 的 作用 在 于 ， 等 到 缓冲 块 解 山 
时 ， 操 作 系 统 可 以 根据 每 个 被 唤醒 的 进程 中 内 核 
栈 的 记录 ， 来 唤醒 在 此 进程 挂 起 之 前 被 挂 起 的 进 
程 ， 这 样 ， 所 有 等 行 缓冲 块 解锁 的 进程 将 被 依次 
唤醒 。 具 体 过 程 将 在 下 面 详细 介绍 。 


4. 三 个 进程 以 相反 的 顺序 被 唤醒 


此 时 进程 A、 进 程 B 和 进程 C 都 已 经 被 挂 起 
了 ， 系 统 中 所 有 的 进程 叉 都 处 于 非 吏 绪 企 了。 区 
以 默认 切换 到 进程 0 去 执行 ， 直 到 数据 读 取 完毕 ， 
便 盘 产生 中 断 ， 如 匈 7-23 所 示 。 


0Ox9FFFF OxFFFFF 0x3FFFFF OxSFFFFF OxFFFFFF 
| | | | 


WE 


硬 指 在 不 断 读 出 数据 Ze 


Perro 和 和 


: 进程 进程 A 进程 B 进程 


: 
; 当前 进程 


| 


7-23 ”再 次 切换 到 进程 0 执行 


便 盘 中 断 产 生 后 ， 中 断 服务 程 序 将 开始 工 
作 。 此 时 便 盘 已 经 将 指定 的 数据 全 部 载 入 缓冲 
块 。 中 断 服务 程序 开始 工作 后 ， 将 bh 绥 冲 块 解 
锁 ， 并 调用 wake_up () 函数 ， 将 bh 中 wait 字 段 所 
对 应 的 进程 (进程 C) 唤醒 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/blk_drv/BIk.h: 

extern inline void end_request (int uptodate) 
{ 

DEVICE _OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 

CURRENT- > bh- > b_uptodate=uptodate; 


unlock buffer (CURRENT->bh) ; /将 缓冲 块 解 锁 


ee 


extern inline void unlock_buffer (struct buffer_head * bh) 

{ 

if (! bh->b_lock) 

printk (DEVICE NAME": free buffer being unlocked\n") ; 
bh->b_lock=0; /将 缓冲 块 解锁 

wake _up (Sbh->b _ wait) ; /唤醒 等 待 缓 训 块 解锁 的 进程 


} 


调用 wake_up () 画 数 时 ， 传 递 的 参数 是 多 
bh->b_wait。 从 进程 等 竺 队列 图 中 不 难 发 现 ，bh- 
>b_wait 指 向 的 是 进程 C 的 task_struct 指 针 ， 所 以 
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wake_up () 画 数 执行 代码 如 下 . 


/代码 路 径 : kernel/sched.c: 


void wake_up (struct task_struct ** p) 


{ 
if (p& &*p) { 
(**p) .state=0; /这 里 将 进程 C 设 置 为 就 绪 态 
*p=NULL; 
} 


} 


此 设置 的 情景 如 图 7-24 所 示 。 


en Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


| 进程 0 进程 A 进程 B 进程 
| 可 中 断 等 待 状态 | 不 可 中 断 等 待 状态 | 不 可 中 断 等 待 状态 | mat: 


a 
; 当前 进程 


ee | 


图 7-24 进程 C 被 唤醒 


中 断 服务 程序 结束 后 ， 再 次 返回 进程 0 中 ， 并 
切换 到 就 绪 的 进程 C。 进 程 C 是 在 sleep_on () EH 
数 中 ， 调 用 了 schedule O 范 数 进行 的 进程 切换 ， 
因此 ， 进 程 C 最 终 回 到 sleep_on () 函数 中 ， 首 先 
要 执行 的 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


ee ee 


schedule () ; 
if (tmp) 
tmp- > state=0; //§tmpf A] VNR Ba AS 


} 


我 们 来 看 图 7-25。 


7-25 ”进程 C 要 唤醒， 退出 进程 等 待 队列 


此 时 内 核 中 程序 在 执行 ， 所 使 用 的 是 进程 C 
的 内 核 栈 ， 这 样 tmp 对 应 的 是 进程 B 的 task_struct 指 
4 秆 ， 所 以 此 时 是 将 进程 B 设 置 为 就 绪 态 


此 设置 的 情景 如 图 7-26 所 示 。 


We Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 
omen Bi 

进程 状态 
: 进程 0 进程 A 进程 B 进程 C 

: | 可 中 断 等 待 状态 | 不 可 中 断 等 待 状态 | 就 绪 态 | T 


t 
进程 C 唤 醒 进 程 B 当前 进程 


ee eee i a id 


7-26 “将 进程 B 唤 酝 


内 核 继续 执行 ， 将 把 进程 C 的 源 程序 中 指定 
的 str1 这 个 字符 数组 中 的 数据 写 入 hello.txt 文 件 对 
应 的 缓冲 块 中 ， 执 行 代码 如 下 : 


// 代 码 路 径 : fs/file_dev.c: 


int file write (struct m inode * inode,struct file * filp,char * buf,int 
count) 


if (pos>inode->i_size) { 
inode- > i_size=pos; 

inode- > i_dirt=1; 

} 

1+=C; 


while (c-->0) 


* (p++) =get_fs byte (buf++) ; /将 字符 串 写 入 缓冲 块 


brelse (bh) ; 


写 入 的 情景 如 图 7-27 所 示 。 


aaa 74 Ox9FFFF OxFFFFF Ox3FFFFF OQxSFFFFF OxFFFFFF 
Bo w 
wer [进程 用户 数 所 
FO 空间 所 在 页 面 
"| MO aaie 
进程 状态 
Na A a 1 
; 进程 0 进程 A 进程 B 进程 C | 
| 可 中 断 等 待 状态 | 不 可 中 断 等 待 状态 | 就 绪 态 | 就 绪 态 
t 
当前 进程 


用 


图 7-27 系统 为 进程 C 将 数据 写 入 指定 缓冲 块 


之 后 返回 进程 C 的 用 户 程 序 中 ， 执 行 如 下 代 
AS: 


for (i=0; i< 1000000; i++) /消耗 时 间 片 
{ 
for (j=0; j<1000000; j++) 


{ 


执行 过 程 中 ， 时 钟 中 断 不 断 产 生 ， 进 程 C 的 
时 间 乒 被 不 断 地 羡 减 ， 如 图 7-28 所 示 。 


=e Ox9FFFF OxFFFFF Ox3FFFFF OQxSFFFFF OxFFFFFF 
| 
— Bi 
进程 居 态 a 
; 进程 0 进程 A 进程 B 进程 


ete ee ap en enantio OE ee | 


Al 7-28 进程 C 执 行 过 程 中 ， 时 间 卢 不 断 削 诚 


注意 各 个 进程 执行 状态 的 进程 条 中 ， 进 程 C 
的 时 间 搬 在 不 断 地 削减 ， 如 图 7-29 所 示 。 


= Ox9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 
| 


; 进程 0 进程 A 进程 B 进程 C 


图 7-29 进程 C 的 时 间 片 减少 到 0 


进程 C 的 时 间 片 削减 为 0 时 ， 要 切换 进程 了 。 
前 面 已 经 介绍 到 ， 进 程 C 被 唤醒 后 ， 系 统 的 第 
FEMER EBREN MES ° ERRA 
有 进程 B 和 进程 C 两 个 进程 是 就 绪 态 ， 进 程 C 的 时 
间 上 户 用 完了 ， 融 会 切换 到 进程 B 去 执行 ， 如 图 7-30 
所 示 。 


re 0x9FFFF OxFFFFF OQx3FFFFF OxSFFFFF OxFFFFFF 
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进程 状态 r a e errer er erarnan 
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7-30 ”切换 到 进程 B 执 行 


进程 B 也 是 在 sleep_on () BRAC, WHT 


schedule () 函数 进行 的 进程 切换 ， 因 此 ， 进 程 B 
最 终 回 到 sleep_on () 函数 中 ， 首 先 要 执行 的 代码 


AT: 


/代码 路 径 : kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


schedule () ; 


if (tmp) 
tmp-> state=0; //itmpAP XT WE EI BA BZA aS 


} 


我 们 来 看 图 7-31 。 


内 核 栈 


和 
x 
四 
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7-31 进程 B 被 唤醒 ， 退 出 进程 等 待 队列 


此 时 内 核 中 程序 在 执行 ， 所 使 用 的 是 进程 B 
的 内 核 栈 ， 这 样 tmp 对 应 的 是 进程 A 的 task_struct 
指针 ， 所 以 此 时 是 将 进程 A 设置 为 就 绪 态 。 


唤醒 进 程 A 的 情景 如 图 7-32 所 示 。 


当前 进程 为 进程 B， 将 缓冲 块 中 指定 的 数据 
读 出 ， 执 行 代码 如 下 : 


// 代 码 路 径 : fs/file_dev.c: 


int file read (struct m inode * inode,struct file * filp,char * buf,int 
count) 


char * p=nr+bh- > b_data; 

while (chars-- > 0) 

put _fs byte (* (p++) , buf++) ; /将 数据 读 入 进程 B 用 户 空间 
brelse (bh) ; 

}else{ 

while (chars-->0) 

put _fs_byte (0, buf++) ; 


} 


i BY 


进程 A 进程 B 进程 | 
| Tewma | sxe | sua 进 和 时 间 || waas 
t i 


片 前 碱 为 0 


图 7-32 唤醒 进程 A 


之 后 回 到 进程 B 的 程序 中 执行 如 下 代码 : 


for (i=0; i<1000000; i++) /消耗 时 间 片 
{ 
for (j=0; j<1000000; j++) 


{ 


随 看 时 钟 中 断 的 不 断 产 生 ， 进 程 B 的 时 间 厂 
着 减 为 0 后 ， 由 于 此 时 系统 中 只 有 进程 A 处 于 刺 绪 
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换 到 进程 A 去 执行 ， 如 图 7-33 所 示 。 
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图 7-33 切换 到 进程 A 执 行 


进程 A 也 是 在 sleep_on () 函数 中 ， 调 用 了 
schedule () 函数 进行 的 进程 切换 ， 因 此 ， 进 程 A 


最 终 回 到 sleep on () 函数 中 ， 首 先 要 执行 的 代码 
如 下 : 


/代码 路 径 : kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


schedule () ; 


if (tmp) /此 时 tmp 为 NULL 


tmp-> state=0; /这 里 代码 不 执行 ， 不 再 唤醒 进程 了 


} 


此 次 执行 的 情景 不 太一 样 ， 我 们 来 看 图 7- 
34 ° 


内 核 栈 | [一 Ri | tm 


Al 7-34 进程 A 和 被 唤醒 ， 退 出 进程 等 待 队列 


此 时 内 核 中 程序 在 执行 ， 所 使 用 的 是 进程 A 
的 内 核 栈 ， 这 样 tmp 对 应 的 是 NULL ， 不 会 再 唤醒 
进程 了 。 

以 上 或 是 进程 等 每 队列 中 ， 进 程 被 唤醒 的 过 
程 。 这 三 个 进程 挂 起 的 顺序 依次 为 进程 A、 进 程 
B、 进 程 C。 前 面 介 绍 的 唤 醋 顺序 为 进程 C、 进 程 
B、 进 程 A， 刚 好 与 挂 起 的 顺序 相反 。 


7.7 ”总体 来 看 缓冲 块 和 请 求 项 


b_dev、b_blocknr 是 绥 冲 区 中 数据 停留 的 标 
志 “。 在 对 缓冲 块 的 实际 应 用 中 ， 内 核 并 没有 刻意 
清除 这 两 个 字段 。 这 意味 着 ， 如 果 持 续 新 申请 绥 
冲 块 ， 那 么 很 快 所 有 的 缓冲 块 就 都 会 与 数据 块 绑 
定 。 这 时 再 申请 缓 神 块 ， 束 只 能 用 新 的 绑 定 关系 
替换 旧 的 绑 定 关系 ， 这 个 缓冲 块 中 已 有 的 数据 作 
废 。 这 体现 了 让 缓 神 区 中 的 数据 在 缓冲 区 中 停留 
的 时 间 尽 可 能 长 的 策略 。 


为 了 能 够 让 数据 多 保留 一 段 时 间 ， 内 核 要 做 
到 尽 可 能 地 不 申请 狐 的 缓冲 块 ， 能 沿用 已 经 建立 
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请 不 可 了 ， 再 去 申请 。 这 一 做 法 在 代码 中 的 体现 
如 下 : 


/代码 路 径 : fs/buffer.c: 
struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 
{ 


repeat: 


if (bh=get_hash_table (dev,block) ) // 如 果 发 现 缓冲 块 与 指定 设 
备 (dev) 指定 数据 块 (block) 已 经 绑 定 


return bh; /直接 用 现成 的 


”tmp=free_list; /如 条 没 找 到 符合 指定 标准 的 绑 定 缓冲 块 ， 再 说 申 
请 新 缓冲 块 


do{ 
/*and repeat until we find something good*/ 


}while ( (tmp=tmp->b_next_free) ! =free_list) ; 


ee 


从 以 上 代码 中 不 难 发 现 ， 内 核 先 搜索 哈 希 
表 ， 通 过 比 对 b_dev、b_blocknr， 来 分 析 是 否 可 以 
沿用 ， 如 果 可 以 ， 直 接 返 回 使 用 就 可 以 ， 实 在 不 
行 ， 再 执行 do..…....while 循 环 ， 新 申请 缓冲 块 。 


下 面 我 们 来 看 新 申请 缓冲 块 时 的 情景 。 


代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( ( (bh) ->b_dirt< <1) + (bh) -> 
b_lock) 


struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 


tmp=free_list; 


do{ 


if (tmp->b_count) /如 果 绥 冲 块 是 被 占用 的 ， 直 接 跳 过 本 次 循环 
continue; 


if (! bh|IBADNESS (tmp) <BADNESS (bh) ) {/ 权 衡 
BADNESS， 选 择 缓冲 块 


bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

while ( (tmp=tmp- > b_next_free) ! =free list) ; 


ee ee 


IMENT ise, "ae POT, % 
THX ATA RIERA Be elo A, AD 
须 申请 一 个 新 缓冲 块 。 申 请 的 时 候 ， 从 free_list 表 
头 开始 搜索 ， 这 走 为 了 尽 可 能 不 破坏 已 经 绑 定 数 


据 块 的 绥 冲 块 ， 让 它们 多 集 留 在 组 促 区 一 会 儿 ， 
实在 不 行 了 《比如 缓冲 区 中 所 有 缓冲 块 都 和 数据 
RABE T) ， 那 殉 只 好 用 新 关系 替换 老 关 系 了 。 


人 循环 里 面 的 执行 ， 古 在 这 一 前 近 下 开始 的 。 


循环 里 面 并 没有 分 析 b_uptodate 了 字段。 这 是 因 
为 ， 既然 前 面 搜索 蛤 布 表 时 已 经 确认 ， 没 有 合适 
的 可 以 沿用 的 缓冲 块 了 ， 那 么 这 就 意味 厦 ， 对 于 
当前 进程 而 诗 ， 绥 冲 区 中 所 有 绥 促 块 的 内 容 已 经 
不 可 用 了 ， 它 们 是 不 十 更 新 了 ，b_uptodate 是 1 还 
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b_uptodate 的 数值 了 ° 


循环 中 首先 判断 b_count 是 否 为 0。 如 果 不 为 
0， 说 明 缓 冲 块 正在 被 其 他 进程 共 诗 ， 当 前 进程 不 


能 废除 正在 被 其 他 进程 共有 的 缓冲 块 ， 这 个 缓冲 
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缓冲 区 也 找 不 到 b_count 为 0 的 缓冲 块 ， 那 么 当前 
进程 只 能 挂 起 了 。 


代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( ( (bh) ->b dirt<<1) + (bh) -> 
b_lock) 


struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 


tmp=free_list; 
do{ 
if (tmp->b_count) /如 果 缓 冲 块 是 被 占用 的 ， 直 接 跳 过 本 次 循环 


continue; 


if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

}while ( (tmp=tmp->b_next_free) ! =free_list) ; 
if (! bh) {/ 最 终 也 没 找到 b_count 为 0 的 缓冲 块 
sleep _on (&buffer_wait) ; /当前 进程 只 好 挂 起 


goto repeat; 


如 果 找 到 了 b_count 为 0 的 绥 冲 块 ， 还 有 两 个 
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是 b_ lock。 如 果 这 两 个 字段 都 为 0， 选 择 这 样 的 组 
冲 块 再 合适 不 过 了 ， 可 以 直接 使 用 。 如 有 果 b_lock 
和 b_dirt 中 有 一 个 是 1， 那 么 选择 哪个 合适 呢 ? 相 
比 来 讲 ， 选 择 b_ lock 为 1 的 更 为 有 利 。 理 由 是 ， 这 
两 个 字段 有 一 个 为 1， 当 前 进程 肯定 都 不 能 使 用 
了 ， 肯 定 要 等 ， 相 比 之 下 等 的 时 间 当 然 越 少 越 
好 。b_lock 为 1， 说 明 该 缓冲 块 正 在 跟 人 硬盘 交互 数 
据 ， 交 互 完了 ， 最 终 轮 到 当前 进程 使 用 。 而 b_dirt 
为 1， 说 明 在 建立 新 的 绑 定 关系 之 前 ， 肯 定 需 要 把 
数据 同步 到 硬盘 ， 同 步 的 时 候 肯定 要 加 锁 一 一 
b_lock 置 1。 所 以 ， 选 择 b lock 为 1 的 比 选择 b_dirt 
为 1 的 ， 少 等 待 由 b_dirt 为 1 到 b_lock 为 1 的 时 间 。 
这 一 点 从 如 下 代码 中 也 可 以 看 出 来 。 代 码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


#define BADNESS (bh) ( ( (bh) ->b dirt<<1) + (bh) -> 
b_lock) 


struct buffer_head * getblk (int dev,int block) /申请 缓冲 块 


tmp=free_list; 

do{ 

if (tmp->b_count) /如 果 缓 冲 块 是 被 占用 的 ， 直 接 跳 过 本 次 循环 
Continue; 

if (! bh|IBADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

while ( (tmp=tmp- > b_next_free) ! =free list) ; 


if (! bh) {/ 最 终 也 没 找到 b_count 为 0 的 缓冲 块 


sleep _on (&buffer_wait) ; /当前 进程 只 好 挂 起 


goto repeat; 


while (bh->b_dirt) {/ 如 果 申 请 到 b_dirt 为 1 的 缓冲 块 ， 直 接 写 
。 写 完了 ， 当 前 进程 再 使 用 


sync _dev (bh->b_dev) ; 
wait _on_buffer (bh) ; 
if (bh->b_count) 


goto repeat; 


可 见 ， 先 不 去 申请 b_dirt 为 1 的 缓冲 块 ， 更 能 
让 进程 尽快 执行 ， 对 它 更 有 利 ， 所 以 ，#define 
BADNESS (bh) ( ( (bh) ->b_dirt< <1) + 
(bh) ->b_lock) 中 ， 将 b_dirt 左 移 一 位 ， 使 之 权 
重 更 高 。BADNESS (tmp) <BADNESS (bh) 


这 行 逻 辑 ， 将 在 b dev、b blocknr、b count 同等 
条 件 下 ， 使 b_dirt 尽 可 能 靠 后 被 申请 到 。 


7.8 实例 2: 多 进程 操作 文件 的 绿 合 
实例 


下 面 我 们 通过 一 和 父 多 进程 操作 文件 的 案例 ， 
对 缓冲 块 的 选择 以 及 请 求 项 的 使 用 等 进行 介绍 。 


进程 A 是 一 个 写 盘 进程 ， 目 的 是 往 hellol.txt 驻 
件 中 写 入 strl[] 中 的 字符 “ABCDE”， 代 码 如 下 ; 


void FunA () ; 


void main () 


ee 


void FunA () 


char str1[]="ABCDE"; 
int i; 
/打开 文件 


int fd=open ("/mnt/user/user1/user2/hellol1.txt", O_RDWR, 
0644) ) ; 


for (i=0; i< 1000000; i++) 

{ 

/村 文件 

write (fd,str1, strlen (str1) ) ; 
} 

/关闭 文件 

close (fd) ; 


return; 


进程 B 是 一 个 写 盘 进程 ， 目 的 古 往 hello2.txt 文 
件 中 写 入 str1[] 中 的 字符 “ABCDE”， 代 码 如 下 : 


void FunB () ; 


void main () 


void FunB () 

{ 

char str1[J="ABCDE"; 
int i; 

/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello2.txt", O_RDWR, 
0644) ) 


for (i=0; i<1000000; i++) 

{ 

NERF 

write (fd,strl, strlen (str1) ) ; 
} 

NRSC 

close (fd) ; 

return; 


} 


进程 C 古 一 个 读 弄 进程 ， 目 的 是 从 hello3.txt 文 
件 中 读 20 000 字 节 到 buffer 中 ， 代 码 如 下 : 


void FunC () ; 


void main () 


ee ee 


void FunC () 

{ 

char buffer[ 20000]; 
int i,j; 

/打开 文件 


int fd=open ("/mnt/user/user1/user2/hello3.txt", O_RDWR, 
0644) ) ; 


// 读 文件 

read (fd,buffer,sizeof (buffer) ) ; 
办 天 闭 文 件 

close (fd) ; 


return; 


这 三 个 进程 的 执行 顺序 为 : 进程 A 先 执行 ， 
之 后 进程 B 执 行 ， 最 后 进程 C 执 行 。 这 三 个 进程 没 
有 人 


1. 系 统 不 断 为 进程 A 向 缓冲 区 写 入 数据 


进程 A 开 始 执行 后 ， 执 行 write 函数 。 假 设 
hellol.txt 文 件 没有 任何 内 容 ， 所 以 进程 A 只 需 在 组 
冲 区 中 不 断 申 请 缓冲 块 并 将 指定 的 数据 写 入 缓冲 
块 就 可 以 了 。 新 申请 绥 冲 块 的 前 提 是 ， 该 缓冲 块 
空间 且 不 脏 。 我 们 假设 现在 系统 已 经 在 缓冲 区 中 
的 所 有 空间 且 不 脏 的 缓冲 块 内 写 满 了 数据 。 图 7- 
35 显 示 了 系统 已 经 将 所 有 空闲 且 不 脏 的 缓冲 块 写 
满 的 状态 。 接 下 来 ， 我 们 惑 要 看 一 下 ， 在 缓冲 区 
处 于 图 7-35 所 示 的 状态 时 ， 再 新 申请 缓冲 块 并 进 
行 写 入 操作 ， 会 导致 什么 情况 。 
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a ii 
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图 7-35 系统 不 断 为 进程 A 写 入 数据 
2. 继 续 执 行 引 发 缓冲 块 数据 需要 同步 


进程 仍然 是 进程 A。 它 提出 的 请 求 ， 系 
统 还 远 没 有 人 完 成， 还 要 继续 同 缓 冲 区 写 数 据 。 这 
忠 需 要 通过 getblk 函 数 在 缓冲 区 中 找到 一 个 空 内 的 
缓冲 块 ， 即 b_count 为 0 的 缓冲 块 。 


执行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


tmp=free_list; 

do{ 

if (tmp->b_count) V/ 找 空闲 的 缓冲 块 
Continue; 


if (! bh|IBADNESS (tmp) <BADNESS (bh) ) {/ 在 空闲 的 基 
础 上 ， 权 衡 BADNESS 


bh=tmp; 

if (! BADNESS (tmp) ) 

break; 

} 

/*and repeat until we find something good*/ 

}while ( (tmp=tmp- > b_next_free) ! =free list) ; 


但 现在 的 情况 是 ， 缓 冲 区 中 已 经 没有 罕 朵 且 
不 脏 的 缓冲 块 ， 只 有 空 几 且 脏 的 缓冲 块 。 这 束 意 
味 看 ， 接 下 来 要 强行 将 绥 促 区 中 的 数据 同步 到 人 硬 
盘 ， 以 便 在 缓冲 区 中 空 出 更 多 的 空间 ， 为 后 续 的 
写 副 工作 提供 文 持 ， 执 行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


struct buffer head * getblk (int dev,int block) 


if (bh->b count) 
goto repeat; 


while (bh->b_dirt) {/ 如 果 申 请 到 的 空 朵 缓冲 块 都 是 脏 的 ， 说 明 
缓冲 区 里 面 有 太 多 的 数据 需要 往 硬 盘 同 步 了 


sync_dev (bh->b_dev) ; /立即 同步 


wait on buffer (bh) ; 
if (bh->b count) 


goto repeat; 


3. 将 绥 冲 区 中 的 数据 同步 到 便 盘 上 


此 时 ，sync_dev () 函数 用 来 将 缓冲 区 中 的 
数据 同步 到 硬盘 上 。 进 入 sync_dev () KURT, 
代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


int sync_dev (int dev) 


bh=start_buffer; 

for (i=0; i<NR_BUFFERS; i++, bh++) {// 全 部 都 要 遍历 
if (bh->b_dev! =dev) 

continue; 


wait on buffer (bh) ; 


if (bh->b dev==dev& &bh->b_dirt) /只 要 设备 号 符合 是 脏 的 ， 
就 同步 


ll_rw_block (WRITE,bh) ; 


sync_dev EK af Rm EP TK, ORF AT 
有 “ 肚 ” 的 缓冲 块 中 的 内 容 全 部 同步 到 人 硬盘 上 。 每 
个 “及 ?缓冲 块 的 同步 步骤 是 这 样 的 : 


第 一 ， 先 将 缓冲 块 与 申请 到 的 空 几 请 求 项 进 
行 绑 定 ， 请 求 项 中 记录 的 内 容 将 作为 数据 同步 的 
唯一 依据 。 


第 二 ， 如 朱 便 盘 此 时 没有 工作 ， 则 下 过 与 一 
命令 ， 将 数据 进行 同步 ， 如 采 便 型 正 在 工作 ， 则 
将 该 请 求 项 挂 接 在 请 求 项 队列 中 ， 便 盘 同 步 完 数 
据 并 产生 中 断后 ， 中 断 服 务 程 序 会 不 断 地 给 硬盘 
发 送 指令 ， 以 使 请 求 项 队列 中 各 个 请 求 项 对 应 的 
数据 陆续 同步 到 人 硬盘 中 。 


sync_dev 芳 数 将 会 不 集 地 执行 上 述 工 作 ， 下 
到 无 法 再 申请 到 空 内 请求 项 为 止 。 


每 个 缓冲 块 同步 的 过 程 都 是 在 l]_rw_block 函 
数 中 完成 的 。 在 此 过 程 中 ， 缓 冲 块 会 被 加 锁 。 加 


凯 只 是 阻 止 进程 与 缓冲 块 的 数据 交互， 阻止 系统 
目 映 与 组 促 块 的 数据 交互 ， 但 并 不 阻止 组 促 块 与 
便 盘 之 则 的 数据 交互 。 在 发 送 同 步 指令 之 前 ， 需 
要 同步 的 绥 仲 块 的 脏 标 志 b_dirt 将 会 被 设置 为 0， 
DANE Fe HE” RAR To 


具体 的 执行 路 线 是 ， 进 入 ll_rw_block 函 数 后 
会 调用 make_request 碎 数 将 组 促 块 与 请 求 项 挂 接 ; 
在 make_request 函 数 中 会 匈 将 缓冲 块 加 锁 ， 并 通过 
add_request 函 数 加 载 请 求 项 ; 在 请 求 项 加 载 完毕 
后 ， 系 统 将 通过 调用 do_hd_request 函 数 回 硬 盘 发 
送 写 盘 命令 。do_hd_request 函 数 是 系统 与 硬盘 交 
互 有 的 压 层 函数 ， 它 将 根据 请 求 项 的 数据 ， 最 终 实 
现 将 指定 的 缓冲 块 的 数据 写 到 指定 的 便 盘 块 上 。 
执行 代码 如 下 : 


/代码 路 径 : kernelblk drwll_ rw_blk.c: 


static void make_request (int major, int rw,struct buffer_head * bh) 


ee 


if (rw! =READ& &rw! =WRITE) 
panic ("Bad block dev command,must be R/W/RA/WA")_ ; 
lock _buffer (bh) ; // 给 缓冲 块 加 锁 


if ( (rw==WRITE& & ! bh->b dirt) || (rw==READ&&bh-> 
b_uptodate) ) { 


unlock buffer (bh) : 


return; 


req- > buffer=bh- > b_data; 
req- > waiting=NULL; 
req- > bh=bh; 


req- > next=NULL; 


add _request (major+blk_dev,req) ; /加 载 请 求 项 
} 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


if (req-> bh) 


req- > bh->b_dirt=0; /缓冲 块 同步 了 了， 就 不 脏 了 


ee 


(dev->request_fn) () ; /这 行 代码 对 应 的 就 是 do_hd_request 画 


ee ee 


同步 一 个 缓冲 块 的 情况 如 图 7-36 所 示 。 在 
make_request 函 数 中 把 这 个 缓冲 块 加 锁 了 ， 而 在 
add_request 函 效 中 已 经 将 该 缓冲 块 时 脏 标志 置 0， 


此 时 这 个 组 神 块 已 经 成 为 了 空 町 且 不 脏 的 缓冲 
块 。 请 读者 将 图 7-36 与 图 7-35 对 比 ， 注 意 该 缓冲 
块 的 状态 变化 。 


<p> 


. 
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图 7-36 将 写 请 求 插 入 请 求 项 队列 


sync_devEX ai ANT EA RIR, BER SAR 
图 7-37 所 示 。 注 意 所 有 留 给 写 入 操作 的 请 求 项 均 


已 极 占 用 ， 同 时 与 写 入 请 求 项 对 应 的 缓冲 块 的 状 
仿 也 已 极 壮 为 至 朵 且 不 脏 的 状态， 而 硬盘 正 在 不 
断 对 请 求 项 进行 处 理 。 
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! Le 
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Irw]“ 写 入 ”或 “ 读 出 ”请 求 项 。 [r ]“ 读 出 ”请 求 项 
图 7-37 请 求 项 结构 中 供 写 请 求 使 用 的 空间 已 


用 十 


实现 此 过 程 的 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


int sync_dev (int dev) 

{ 

int i; 

struct buffer_head * bh; 

bh=start_buffer; 

for (i=0; i<NR_BUFFERS; i++, bh++) {/ 饥 历 所 有 缓冲 块 
if (bh->b_dev! =dev) 

continue; 

wait _on_buffer (bh) ; 

if (bh->b_dev==dev& &bh- > b_dirt) 


ll_rw_block (WRITE,bh) ; 


/代码 路 径 : kernel/blk_drv/llL_rw_blk.c: 
void ll_rw_block (int rw,struct buffer_head * bh) 


{ 


unsigned int major; 

if ( (major=MAJOR (bh->b_dev) ) >=NR_BLK_DEV]|| 
! (blk_dev[major].request_fn) ) { 

printk ("Trying to read nonexistent block-device\n\r") ; 
return; 

} 

make request (majorrw,bh) ; 

} 


static void make_request (int major, int rw,struct buffer_head * bh) 


if (rw! =READ& &rw! =WRITE) 

panic ("Bad block dev command,must be R/W/RA/WA") ; 
lock buffer (bh) ; /这 里 加 锁 了 

add _request (major+blk_dev,req) ; 


} 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


req- > next=NULL; 
cli () ; 
if (req-> bh) 


req- > bh->b_dirt=0; /这 里 把 脏 标志 置 为 0 


请 求 项 结构 中 虽然 还 有 空闲 的 请 求 项 ， 但 留 
给 “ 写 入 ”操作 的 请 求 项 只 占 请 求 项 总 数 的 3， 对 
应 的 代码 如 下 : 


// 代 码 路 径 : kernelblk drwll_rw_blk.c: 


Static void make_request (int major, int rw,struct buffer_head * bh) 


if (rw==READ) 


req=request+NR_REQUEST; /所 有 请 求 项 都 可 以 用 来 读 操作 
else 


req=request+ ( (NR _REQUEST*2) /3) ; /只 有 2/3 的 请 求 项 可 以 
用 来 写 操作 


由 于 现在 这 2/3 的 请 求 项 已 经 全 部 人 航 占 用 了 ， 
所 以 现在 已 经 没有 空闲 的 请 求 项 为 “同步 ?服务 
了 ， 如 图 7-35 中 的 写 入 请 求 项 所 示 。 


4. 进 程 A 由 于 等 每 空 内 请 求 项 而 做 系统 挂 起 


空 几 的 “ 写 盘 ”请 求 项 没有 了 ， 但 sync_dev 
O 男 数 仍然 会 被 继续 调用 ， 再 次 进入 


make request () 函数 后 ， 将 会 执行 如 下 代码 : 


// 代 码 路 径 : kernelblk drwll_rw_blk.c: 


static void make_request (int major, int rw,struct buffer_head * bh) 


ee 


ee 


ee 


这 些 代码 的 作用 是 ， 如 末 最 后 也 没有 找到 合 
适 的 空间 请 求 项 ， 束 将 当前 进程 挂 起 。 调 用 
sleep_on () 函数 后 ， 进 程 A 束 成 为 了 等 待 空 亲 请 
求 项 的 进程 ， 被 挂 起 了 。 该 过 程 如 图 7-38 所 示 ， 
此 时 硬 重 仍然 在 不 断 地 处 理 请 求 项 ， 而 进程 A 已 
经 处 于 挂 起 状态 ， 尺 管 它 还 有 时间 片 。 
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图 7-38 ”进程 A 被 挂 起 


5. 进 程 B 开 始 执 行 


进程 B 开 始 执行 。 它 也 十 一 个 写 盖 进程 。 系 
统 也 要 给 进程 B 申 请 绥 冲 块 ， 以 便 其 写 入 数据 。 
执行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


tmp=free_list; 

do{ 

if (tmp->b_count) 

continue; 

if (! bh|BADNESS (tmp) <BADNESS (bh) ) { 
bh=tmp; 

if (! BADNESS (tmp) ) 


break; 


} 


/*and repeat until we find something good*/ 


}while ( (tmp=tmp->b_next_free) ! =free_list) ; 


通过 图 7-38 可 以 看 出 ， 现 在 缓冲 区 中 的 各 个 
空 闪 缓冲 块 的 状态 有 所 不 同 ， 系 统 就 是 要 在 当前 
情况 下 综合 分 析 所 有 的 空闲 缓冲 块 的 状态 ， 从 而 
确定 为 进程 B 申 请 哪个 缓冲 块 。 系 统 是 通 
BADNESS (tmp) 来 进行 综合 分 析 的 。 


BADNESS (tmp) 的 定义 如 下 : 


#define BADNESS (bh) ( ( (bh) ->b dirt 
<<1) + (bh) ->b lock) , 


通过 前 面 的 分 析 我 们 得 知 ， 它 的 作用 是 将 组 
冲 区 中 所 有 的 缓冲 块 按照 对 进程 执行 更 有 利 的 原 
则 ， 分 为 4 个 等 级 ， 从 有 利 到 不 利 依次 为 ; 


一 等 : BAIE, BEAM E KNR 
块 ， 此 等 缓冲 块 的 BADNESS 值 为 0， 二 等 : 没 
ACHE”, EAN HS Ba PER, SEER 
的 BADNESS 值 为 1: 


=: ACHR’, Aira Dee WA 
块 ， 此 等 缓冲 块 的 BADNESS 值 为 2; 


四 和 等， 有“ 脏 *， 且 有 “加 锁 * 的 空 几 缓冲 块 ， 
此 等 缓冲 块 的 BADNESS 值 为 3。 


BADNESS 值 越 小 ， 则 该 缓冲 块 束 越 便于 使 
FA; 越 大 整 越 不 便于 使 用 。 


系统 已 经 将 一 些 缓冲 块 加 锁 ， 并 将 它们 
NA ime AOS, Teme yy 
BADNESS 信 为 1。 在 目前 的 情况 下 ， 这 已 经 是 最 
便于 使 用 的 缓冲 块 了 。 因 此 系统 就 为 进程 B 申 请 
到 了 一 个 BADNESS 值 为 1 的 缓冲 块 。 这 个 缓冲 块 
是 加 锁 的 。 这 意味 着 该 缓冲 块 并 不 能 马上 被 操 
作 ， 但 总 比 申请 一 个 脏 的 缓冲 块 好 得 多 。 图 7-39 
表示 了 系统 给 进程 B 申 请 到 的 缓冲 块 。 
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图 7-39 系统 为 进程 B 申 请 到 缓冲 块 
6. 进 程 B 也 被 挂 起 


系统 申请 到 的 缓 促 块 是 “加 锁 * 的 缓冲 块 ， 这 
就 导致 进程 或 系统 不 能 立即 与 该 缓冲 块 进行 数据 
交互 。 于 是 ， 系 统 会 直接 调用 wait_on_buffer () 
国 数 ， 进 程 B 将 会 被 挂 起 ， 如 图 7-40 所 示 。 注 意 ， 
此 时 系统 和 硬盘 还 在 不 断 处 理 请 求 项 。 
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7-40 “进程 B 也 被 挂 起 


执行 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if (! bh) { 

sleep _on (&buffer_wait) ; 

goto repeat; 

} 

wait on_buffer (bh) ; /这 里 将 进程 B 挂 起 
if (bh->b_count) 


goto repeat; 


ee ee 


7. 进 程 C 开 始 执行 并 随后 锌 挂 起 


进程 C 开 始 执 行 。 它 古 一 个 读 副 进程 。 系 统 
也 要 为 它 申 请 一 个 缓冲 块 。 从 现在 缓冲 区 的 情况 
来 看 ， 系 统 给 进程 C 和 进程 B 申 请 的 应 该 是 同一 个 
RIPER o MPEP R EID, ARR 
同样 不 能 被 操 作 ， 但 可 以 航 申 请 到 ， 于 十 进 程 C 
会 俄 挂 起 。 


进程 C 和 进程 B 现 在 都 因为 在 等 待 同一 个 缓冲 
块 的 解 馈 而 被 挂 起 ， 所 以 这 两 个 进程 现在 就 形 成 
了 一 个 进程 等 竺 队列 。 


到 现在 为 止 ， 实 例 2 中 的 三 个 用 户 进程 都 被 挂 
起 了 ， 于 有 古 默认 切换 到 进程 0 去 执行 。 它 们 被 挂 起 
的 情况 如 图 7-41 所 示 。 其 中 进程 A 处 在 等 得 空间 请 


求 项 的 等 待 队列 ， 而 进程 B 和 进程 C 处 在 等 行 同一 
个 缓冲 块 解锁 的 队列 。 


进程 A Hit 最 进程 C tik 

§ § 进程 B 
Ss E E O 后 外 个 
| 


| 缓冲 区 
Bie BEE 请 求 项 


ae “Te 


进程 A 进程 B 进程 C 


人 请求 项 队列 ama [lem [jen Em 
Irw|“ 写 入 ”或 “ 读 出 ”请 求 项 [r] “ 读 出 ”请 求 项 


7-41 ”进程 A、B 和 C 此 时 的 运行 状态 和 所 处 
等 竺 队列 


进程 A 和 进程 C 均 被 唤醒 


下 面 我 们 将 介绍 这 三 个 用 户 进程 被 唤醒 的 过 
程 。 它 们 被 唤醒 后 ， 系 统 将 继续 根据 缓冲 块 和 请 


求 项 的 各 方面 状况 来 决定 用 户 进程 将 如 何 执行 。 


一 段 时 间 之 后 ， 便 到 完成 了 请 求 项 交付 的 同 
步 工作 ， 产 生 人 硬盘 中 断 ， 中 断 服务 程序 开始 执 
行 ， 执 行 代 码 如 下 : 


/代码 路 径 : kernel/blk_dev/blk.h: 


extern inline void end_request (int uptodate) 


ee 


ee ee 


extern inline void unlock buffer (struct buffer head * bh) 


{ 


bh- > b_lock=0; 
wake _up (&bh->b_wait) ; 


} 


TEE A ve FAS FS A Ps TEE 
于 是 “wake_up (&wait_for_request) ; ”这 行 代码 
将 唤醒 进程 A， 如 图 7-42 所 示 。 


进程 B 和 进程 C 构 成 了 一 个 进程 等 竺 队列 。 
程 C 后 挂 起 ， 要 和 爷 唤 醒 ， 如 图 7-42 所 示 。 


Sie BEC FETT 请 求 项 


it 本 


进程 A 进程 B 进程 C 


tJ 请 求 项 队列 amwa Lea (laen Bae 
Irw]“ 写 入 ”或 “ 读 出 ”请 求 项 。”[r]“ 读 出 ”请 求 项 


7-42 ”一 个 缓冲 块 数据 同步 完成 后 各 进程 的 
状态 


男 外 ， 由 于 指定 的 缓冲 块 中 的 数据 已 经 操作 

毕 了 ， 所 以 中 断 服务 程序 还 会 将 该 绥 冲 块 解 
锁 。 中 断 服务 程序 会 在 以 上 工作 做 完 后 继续 调用 
do_hd request 函数 ， 如 果 还 有 请 求 项 需要 处 理 ， 
再 次 给 便 熏 发 送 写 盘 指令 。 很 显然 ， 人 硬盘 又 要 开 
始 进行 后 续 的 同步 工作 了 。 从 图 7-42 中 可 以 看 


出 ， 便 一 已 经 在 处 理 下 一 个 请 求 项 ， 而 此 刻 已 经 
有 一 个 可 用 的 “ 写 ” 请 求 项 空间。 


此 时 进程 C 的 时 间 搬 多 于 进程 A 的 时 间 上 请， 所 
以 系统 将 当前 进程 由 进程 0 切换 到 进程 C， 开 始 执 

后 的 第 一 件 事 吏 是 要 唤醒 进程 BE， 如 图 7-42 所 
示 。 执 行 代码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if (! bh) { 
sleep _on (&buffer_wait) ; 
goto repeat; 


} 


wait _on_buffer (bh) ; W/ 进 程 C 唤 醒 后 从 这 里 开始 继续 执行 ， 先 
唤醒 进程 B 


if (bh->b count) 
goto repeat; 


ee ee 


static inline void wait_on_buffer (struct buffer_head * bh) 
{ 

cli () ; 

while (bh->b_lock) 

sleep on (&bh->b_wait) ; 

sti () ; 


} 


系统 为 进程 C 申 请 到 的 绥 冲 块 现在 已 经 个 解 
磺 了 ， 可 以 使 用 了 。 系 统 将 先 对 这 个 绥 冲 块 进行 
设置 ， 包 括 将 它 的 引用 计数 设置 为 1， 代 码 如 下 : 


/代码 路 径 : fs/buffer.c: 


struct buffer_head * getblk (int dev,int block) 


if (! bh) { 

sleep on (&buffer_wait) ; 

goto repeat; 

} 

wait _on_buffer (bh) ; /唤醒 进程 B 后 ， 进 程 C 继 续 从 这 里 执行 
if (bh->b_count) 

goto repeat; 


ee ee 


bh->b_count=1; /3 引用 计数 设置 为 1 
bh->b dirt=0; 


bh- > b_uptodate=0; 


TEARRADH ETN RIR T o IA 
m, ERKA FAA tg P28 AT RIL SU 
THERE RE, HAARR e (Ee, VK 
THUS SER, FFM Ce SERRE MEEK TK 
Di o ECA ARR a TE a AAR OI, ME 
BETES aE” TRIE A TRE, ARA 
如 下 : 


/代码 路 径 : kernel/blk_dev/ll_rw_blk.c: 


static void add_request (struct blk_dev_struct * dev,struct request * 
req) 


ee ee 


for (; tmp->next; tmp=tmp->next) /设备 忙 ， 将 请 求 项 插入 队 


if ( (IN_ORDER (tmp,req) || 


! IN_ORDER (tmp,tmp->next) ) && 
IN_ORDER (req,tmp-> next) ) 
break; 
req- > next=tmp- > next; /next 用 来 组 建 请 求 项 队列 
tmp- > next=req; 


sti () ; 


然后 系统 会 将 进程 C 挂 起 。 


此 时 系统 中 的 进程 状态 如 图 7-43 所 示 ， 其 中 
读 请 求 项 占据 的 十 请 求 项 数组 的 最 后 一 项 ， 并 且 
由 请 求 项 数组 中 的 第 1 项 的 指针 指 癌 它 。 


i 请 求 项 


itl e 


进程 A 进程 B 进程 C 


硬盘 
ui ama Clam [] rem Be 
Irw|“ 写 入 ”或 “ 读 出 ”请 求 项 。[r ]“ 读 出 ”请 求 项 


7-43 ”进程 C 将 读 请 求 插入 请 求 项 队列 后 各 进 
程 的 状态 


进程 B 切 换 到 进程 A 执行 


进程 C 挂 起 后 ， 进 程 B 的 时 间 片 显然 比 进程 A 
要 多 ， 所 以 切换 到 进程 B。 系 统 早已 经 为 进程 B 申 
请 了 缓冲 块 ， 当 时 由 于 这 个 缓冲 块 定 加 锯 的 ， 所 
以 进程 B 要 挂 起 。 现 在 ， 这 个 绥 冲 块 仍然 古 加 馈 


上 时， 所 以 进程 B 将 再 次 被 挂 起 ， 并 切换 到 进程 A， 
如 图 7-44 所 示 。 


En 请 求 项 


进程 A 进程 B 进程 C “g 


ti 请 求 项 队列 ama [jem [jaan EE 
rw]“ 写 入 ”或 “ 读 出 ”请 求 项 ”[r]“ 读 出 ”请 求 项 


7-44 ”进程 B 持 起， 切换 到 进程 A 执行 


当前 进程 是 进程 A。 进 程 A 由 于 同步 绥 仲 块 时 
HRD ZS ALTAR BEE, ATV MRM, A 
统 将 继续 同步 缓冲 块 。 现 在 系统 已 经 有 空 风 的 请 
求 项 用 于 写 僵 了 ， 所 以 系统 将 此 请 求 项 与 即将 要 


同步 的 绥 冲 块 绑 定 ， 并 插入 请 求 项 队列 中 ， 之 后 
又 没有 至 并 的 请 求 项 了 ， 进 程 A 将 绸 次 航 挂 起 ， 
如 图 7-45 所 示 。 


sid ood SUBS RE 


ein = Pin “oo 请 求 项 


il gar 


进程 A 进程 B 进程 C 


ti 请 求 项 队列 ”会 加 锁 。[_ ] 空 间 [] 非 空 亲 号 用 
|cwj“ 写 入 ”或 “ 读 出 ”请 求 项 [ir | “ 读 出 ”请 求 项 


7-45 “进程 A 再 次 挂 起 


接 下 来 ， 以 上 步 又 将 会 重复 执行 。 一 方面 ， 
只 要 人 硬盘 执行 完 一 次 同步 操作 ， 丈 会 释放 一 个 请 
求 项 ， 并 将 其 对 应 的 缓冲 块 解 鲍 ， 这 些 痢 将 导 伊 
等 待 罕 刚 请 求 项 或 等 行 缓冲 块 解锁 的 进程 被 唤 


RE; ATT, PME EE NTH | AC 
区 与 便 盘 之 间 进 行 数据 交互 ， 从 而 使 这 些 进 程 不 
断 地 被 挂 起 ， 如 图 7-46 所 示 。 


Ws ey SRS EG TEMG ms TRG Ns NG AS er SR K 
A OS veh 2628 25 228 28 ed Ss es ved 党 机 aS 2 
* Mes. 


u “ES 


进程 A 进程 B 进程 C 


tL 请求 项 队列 ama Clem [lem Bee 
Irw|“ 写 入 ”或 “ 读 出 ”请 求 项 [| “ 读 出 ”请 求 项 


图 7-46 缓冲 块 再 次 同步 完成 时 唤醒 进程 B 


直到 最 后 三 个 进程 全 部 完成 各 目的 写 僵 任务 
和 读 盘 任务 ， 如 图 7-47 所 示 。 


理解 多 进程 操作 文件 的 关键 是 深入 理解 组 冲 
X o HEN ate Bie, RIM KATE 
想 就 是 让 缓冲 区 中 的 数据 在 缓冲 区 中 停留 的 时 间 
尽 可 能 长 ， 进 程 与 醒 盘 的 交互 尽 可 能 在 缓冲 区 中 
实现 ， 尽 可 能 少 地 读 写 硬盘 数据 。 


[| jw 讲求 有 


| | 


进程 A 进程 B 进程 C 


[jem [jae 


[rw] “ 写 入 ”或 “ 读 出 ”请 求 项 。 [r]“ 读 出 ”请 求 项 


图 7-47 进程 所 有 请 求 均 已 处 理 完 毕 


从 这 个 设计 指导 思想 出 发 ， 仔 细 审 核 Linux 的 
源 代码 ， 可 以 看 出 ， 同 步 代 码 的 设计 多 少 与 这 个 


设计 指导 思想 有 些 偏离 。 


/代码 路 径 : fs/buffer.c: 

int sys_sync (void) 

{ 

int 1; 

struct buffer_head * bh; 

sync _inodes () ; /*write out inodes into buffers*/ 
bh=start_buffer; 


for (i=0; i<NR_BUFFERS; i++, bh++) {/ 遍 历 整个 缓冲 区 ， 
不 放 过 一 个 缓冲 块 


wait _on_buffer (bh) ; 

if (bh->b_dirt) 
ll_rw_block (WRITE,bh) ; 
} 

return 0; 

} 

int sync_dev (int dev) 


{ 


int 1; 
struct buffer_head * bh; 
bh=start_ buffer; 


for (i=0; i<NR_BUFFERS; i++, bh++) {/ 遍 历 整个 缓冲 区 ， 
不 放 过 一 个 缓冲 块 


if (bh->b_dev! =dev) 

continue; 

wait _on_buffer (bh) ; 

if (bh->b_dev==dev& &bh- > b_dirt) 
ll _rw_block (WRITE,bh) ; 

} 

sync _inodes () ; 

bh=start_buffer; 


for (i=0; i<NR_BUFFERS; i++, bh++) {/ 遍 历 整个 缓冲 区 ， 
不 放 过 一 个 缓冲 块 


if (bh->b dev! =dev) 
continue; 


wait on buffer (bh) ; 


if (bh->b_dev==dev& &bh->b_ dirt) 
ll_rw_block (WRITE,bh) ; 


} 
return 0; 


} 


以 上 代码 中 没有 考虑 b_count， 不 管 其 是 否 为 

只 要 是 b_dirt 为 1 的 缓冲 块 ， 部 要 同步 。 与 尽 可 
能 多 地 共 至 绥 冲 区 、 尺 可 能 少 地 读 写 硬盘 的 设计 
宗旨 不 十 分 相符 。 


© 


7.9 本章 小 结 


多 进程 操作 文件 的 核心 是 多 进程 对 缓冲 区 的 
操作 。 绥 促 区 关联 看 用 户 进程 、 文 件 系 统 和 内 
人 存 ， 所 以 本 章 是 比较 难 的 一 革 。 


本 半 详 细 讲 解 了 绥 冲 区 的 作用 及 整体 架构 ， 
全 面 分 析 了 b_dev、b_blocknr ` uptodate 、dirt...... 
的 作用 ， 并 以 两 个 实例 详细 讲解 了 进程 等 待 队列 
及 多 进程 操作 文件 。 


深入 理解 这 一 章 的 内 容 ， 对 深入 理解 文件 系 
统 、 缓 促 区 、 多 进程 的 运行 大 有 鼻 处 。 


第 8 章 ” 进 程 间 通信 


前 面 几 章 讲 解 了 在 Linux 0.11 中 不 允许 进程 跨 
越 边 界 去 访问 其 他 进程 的 代码 、 数 据 ， 这 是 操作 
系统 保护 模式 的 核心 内 容 。 


从 实际 应 用 角度 看 ， 进 程 间 往往 需要 协同 工 
作 、 交 互信 息 ， 这 似乎 与 进程 保护 相 违 背 。 如 何 
才能 既 不 破坏 进程 保护， 又 能 实现 进程 间 通 信 的 
合理 要 求 ? Linux 0.11 设 计 了 两 套 机 制 来 为 此 需求 
提供 服务 : 一 套 是 “管道 机 制 ”， 另 一 套 是 “信号 机 
制 ”。 本 章 将 通过 两 个 实际 的 应 用 案例 来 对 这 两 套 
机 制 进行 详细 的 介绍 。 


8.1 EOL iil 


为 了 体现 对 进程 的 保护 ， 在 不 跨越 进程 边 寞 
的 前 提 下 实现 进程 间 通 信 ，Linux 0.11 绕 过 对 进程 
边界 的 保护 ， 设 计 了 管道 机 制 。 每 个 管道 人 允许 两 
个 进程 交互 数据 ， 一 个 进程 同 管道 中 输入 数据 ， 
一 个 管道 从 管道 中 输出 数据 ， 如 图 8-1 所 示 。 该 机 
制 实现 了 进程 间 通 信 ， 同 时 又 不 需要 非法 路 越 进 
程 间 边 界 。 


进程 进程 


8-1 管道 机 制 


操作 系统 在 内 存 中 为 每 个 管道 开辟 一 页 内 
存 ， 给 这 一 页 内 存 赋予 了 文件 的 属性 (赋予 文件 
属性 的 理由 ， 将 在 第 9 章 讲解 ) 。 这 一 页 内 存 由 两 


个 进程 共 诗 ， 但 不 会 分 配给 任何 进程 ， 只 由 内 核 


在 Linux 0.11 中 ， 管 道 操 作 分 为 两 部 分 ， 一 部 
分 是 创建 管道 ， 另 一 部 分 是 管道 的 读 写 操作 。 下 
面 我 们 通过 实例 1 对 这 两 部 分 内 容 进 行 介绍 。 实 例 
1 代码 如 下 : 


#include < stdio.h > 
#include < unistd.h > 
int main () 

{ 

int n,fd[2]; 

pid _t pid; 

int i,j; 


char 
str1[J="ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDE 
ABCDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEAB 
CDEABCDE 


ABCDEABCDEABCDEABCDEABCD"; 
char str2[512]; 

if (pipe (fd) <0) {// 创 建 管道 

printf ("pipe error\n") 

return-1; 

} 


if ( (pid=fork O ) <0) { 


printf ("fork error\n") ; 


return-1; 


} 


elseif (pid>0) // 父 进程 向 管道 中 写 入 数据 
{ 

close (fd[0]) ; 

for (i=0; i<10000; i++) 

write (fd[1], strl, strlen (str1) ) ; 
} 

else{// 子 进程 从 管道 中 读 取 数 据 
close (fd[1]) ; 

for (j=0; j<20000; j++) 

read (fd[0], str2, strlen (str2) ) ; 
} 


return 0; 


实例 1 表现 了 进程 间 共 享 数据 的 情景 : 
把 strl 中 的 数据 写 入 管道 ， 子 进程 从 管道 中 读 出 数 
据 ， 其 中 str1 中 字符 长 度 为 1024 字 和 ， 即 1kB。 


8.1.1 管道 的 创建 过 程 


以 操作 文件 的 方式 对 其 进行 操作 ， 这 束 要 求 这 页 


从 技术 上 看 ， 管 道 束 生 一 页 内 存 ， 但 进程 要 
其 进 
内 存 具 备 一 些 文件 属性 并 减少 页 属性 。 


具备 一 些 文件 属性 表现 为 ， 创 建 管道 相当 于 
创建 一 个 文件 ， 如 进程 task_struct 中 *filp[20] 和 和 
file_table[64]f##2 ` SIT A, ` file_table[64]4#7 5c 
件 节 点 挂 接 等 工作 要 在 创建 管道 过 程 中 完成 ， 最 
终 使 进程 只 要 知道 自己 在 操作 管道 类 型 的 文件 就 
可 以 了 ， 其 他 的 都 不 用 关心 。 


减少 页 属性 表现 为 ， 这 页 内 存 和 毕竟 要 当做 一 
个 文件 使 用 ， 比 如 进程 不 能 像 访问 目 己 用 户 衬 间 
的 数据 一 样 访 问 它 ， 不 能 映射 到 进程 的 线性 地 址 
裤 间 内 。 再 如 ， 两 个 进程 操作 这 个 页 面 ， 一 个 谈 
一 个 写 ， 也 不 能 产生 页 写 傈 护 异 利 把 页 面 态 复制 
一 份 ， 人 否则 无 法 共 孚 管道 。 下 面 我 们 来 看 管道 的 
具体 创建 过 程 。 


1. 为 管道 文件 在 file_table[64] 中 申请 空 闪 项 


创建 文件 都 是 让 当前 进程 〈 一 个 进程 ) 使 
用 ， 而 管道 文件 整 是 为 了 两 个 进程 〈 读 管道 进程 
和 写 管道 进程 的 使 用 而 创建 的 。 实 例 1 中 管道 古 
由 父 进程 〈 写 管道 进程 ) 创建 的 。 父 进程 在 创建 
管道 时 ， 处 处 为 子 进 程 〈 读 管道 进程 ) 做 准备 ， 


使 得 子 进程 一 旦 被 创建 ， 天 然 天 具备 操作 管道 的 
a 


IO》 


父 进 程 完 在 fie_table[64] 中 申请 “两 个 ”空间 
项 ， 并 将 这 两 个 空闲 项 的 引用 计数 设置 为 1， 表 示 
它们 被 引用 了 ， 父 子 进 程 以 后 操作 管道 文件 可 以 
各 用 一 项 。 执 行 代码 如 下 : 


/代码 路 径 : fs/pipe.c: 

int sys_pipe (unsigned long * fildes) 
{ 

struct m_inode * inode; 

struct file * f[2]; 

int fd[2]; 

int i,j; 


j=0; 


for (i=0; j<2&&i<NR FILE; i++) /准备 在 fle_table[64] 中 申 
请 两 个 空闲 项 


if (! file_table[i].f_count) /找到 空闲 项 
(f[j++]=i+file_table) ->f_count++; /每 项 引用 计数 为 1 

if (j==1) 

f[0]- > f_count=0; 

if (j<2) 

return-1; 


ee ee 


为 创建 管道 文件 而 在 file table[64] 中 申请 的 两 
个 空 内 项 如 图 8-2 所 示 。 
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A 8-2 为 创建 管道 文件 而 在 旬 e_table[64] 中 申 
请 两 个 空 刹 项 


2. 进 程 task_struct 中 的 *filp[20] 与 file_table[64] 
HA A Fe DFE 


父 进 程 task_struct 在 *filp[20] 中 申请 两 个 空闲 
， 分 别 与 前 面 在 file_table[64] 中 申请 的 两 个 表 项 
相 挂 接 。 这 样 ， 当 前 进程 文件 结构 *filp[20] 中 就 有 
两 个 表 项 与 fle_table[64] 建 立 天 系 。 等 到 它 作 为 父 
进程 创建 子 进程 时 ，*filp[20] 中 的 这 两 个 表 项 就 会 


目 然而 然 地 复制 给 它 的 子 进 程 ， 使 之 也 “天 然 
地 ”和 file_table[64] 结 构 中 同样 的 管道 文件 表 项 建 
六 了 关系 ， 执 行 代码 如 下 : 


// 代 码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


if (j==1) 

f[0]- > f_count=0; 
if (j<2) 
return-1; 

j=0; 


a e j<2&&i<NR_OPEN; i++) /准备 在 *filp[20] 中 申请 
至亲 项 


if (! current-> filp[i]) {// 找 到 空 闪 项 


”current- > filp[fd[j]=iJ=ffj]; /分 别 与 fle_table[64] 中 申请 的 两 个 空 
内 项 挂 接 


j++; 

} 

if (j==1) 

current- > filp[fd[0]J=NULL; 
2) 

f[0]- > f_count=f[1]- > f_count=0; 


return-1; 


Al8-33276 T BIH SS I SEK 
的 效果 。 
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8-3 ”将 当前 进程 与 管道 文件 建立 联系 
3. 创 建 管道 文件 iT R 


进程 要 想 具 备 操 作 管 道 文件 的 能 力 ， 还 要 建 
交管 道 文 件 i 点 与 fle_table[64] 的 关系 。 为 此 调 
用 get_pipe_inode () 函数 ， 先 为 该 管道 文件 在 
inode_table[32] 中 申请 一 个 i 太太。 执行 代码 如 
T 


/代码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


if (j==1) 

current- > filp[fd[0]J=NULL; 
ee) 4 

f[0]- > f_count=f[1]- > f_count=0; 
return-1; 

} 


if (! (inode=get_pipe_inode () ) ) {// 创 建 管道 文件 i 节点 


current- > filp[fd[0]]= 
current- > filp[fd[1]J=NULL; 
f[0]- > f_count=f[1]- > f_count=0; 


return-1; 


ee ee 


由 于 管道 的 本 质 就 是 一 个 内 存 页 面 ， 系 统 申 
请 一 个 空 几 内 存 页面 ， 并 将 该 页 面 的 地 址 载 入 i 节 
点 。 值 得 注意 的 是 ， 此 刻 inode- > i_size 字 上 段 承载 
的 不 再 是 文件 大 小 ， 而 是 内 存 页 面 的 起 始 地 址 。 
执行 代码 如 下 : 


| 


// 代 码 路 径 : fs/inode.c: 

struct m_inode * get_pipe_inode (void) 
{ 

struct m_inode * inode; 

if (! (inode=get empty inode () ) ) 
return NULL; 


if (! (inode->i_size=get_free_ page () ) ) {// 申 请 页 面 作为 管 


wig 


inode- > i_count=0; 


return NULL; 


} 


inode- >i_count=2; /*sum of readers/writers*/ 


SIE Pte IE, MAUBRE A ° Ail 
点 就 要 有 引用 计数 。 在 Linux 0.11 中 ， 默 认 操 作 这 
个 管道 文件 的 进程 “能 且 仅 能 ”有 两 个 ， 一 个 是 谈 
进程 ， 另 一 个 是 写 进程 ， 所 以 这 里 直接 设置 为 2。 


pity 


JE Ta ETA SS Ta ET eB Te Al E 

空 则 页 面 ) 的 起 始 位 置 ， 以 便 

将 来 读 写 管 这 的 进程 操作 ， 并 将 该 市 点 的 属性 设 

置 为 “管道 型 ii 点”， 以 此 来 标识 该 iP 点 的 特殊 

HE, BV EH AN ce Sev aE aE ET 
me AE URL ° MITRA F: 


让 读 管 
E (其 实 就 古 这 个 


/代码 路 径 : fs/inode.c: 


struct m_inode * get_pipe_inode (void) 


if (! (inode->i size=get free page () ) ) { 

inode- > i_count=0; 

return NULL; 

} 

inode->i_count=2; /*sum of readers/writers*/W 引 用 计数 设置 为 2 


PIPE HEAD (*inode) =PIPE TAIL (*inode) =0; //PIPE HEAD 
为 写 管道 指针 ，PIPE_TAIL 为 读 管 道 指针 ， 都 设置 为 0 


inode->i_pipe=1; /设置 管道 文件 属性 
return inode; 


} 


为 管道 文件 申请 i 节点 并 对 其 进行 设置 的 过 程 
如 图 8-4 所 示 。 
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管道 文件 的 ;节点 上 


4. 将 管道 文件 i 节点 与 fle_table[64] 建 立 联 系 


SIEM AOA Soe, MEW NAK 
ESfile_table[64]WRAT, AUPE. R 
化 file_table[641 中 的 两 个 空 几 项 ， 让 它们 都 指 癌 这 
个 种 道 文件 im 点， 文件 读 写 指针 都 指 癌 管道 的 起 
始 位 置 。 第 1 个 空 朵 项 的 文件 模式 置 为 谈 ， 第 2 个 
空 内 项 的 文件 模式 管 为 写 ， 这 样 ， 父 进程 已 经 具 


备 了 操作 管道 文件 的 能 力 ， 由 它 创 建 的 和子 进程 也 
将 天 然 具 备 操 作 管 道 文件 的 有 能力， 执行 代码 如 
下 : 


// 代 码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


if (! (inode=get pipe inode () ) ) { 

current- > filp[fd[0]]= 

current- > filp[fd[1]J=NULL; 

f[0]- > £_count=f[1]- > £_count=0; 

return-1; 

} 

f[0]- > f_inode=f[1]->f_inode=inode; Mi 节点 和 表 项 挂 接 


f[0]->f_pos=f[1]->f pos=0; /文件 指针 归 0 


f[0]->f_mode=1; /*read*/// 设 置 为 读 模 式 
f[1]->f_mode=2; /*write*/// 设 置 为 写 模式 
put_fs long (fd[0], O+fildes) ; 

put_fs long (fd[1], 1+fildes) ; 

return 0; 


} 


将 管道 文件 i 节点 与 他 e_table[64] 建 立 联 系 的 
结果 如 图 8-5 所 示 。 
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A 8-5 管道 文件 i 节点 与 fle_table[64] 建 立 联 系 


5. 将 管道 文件 句柄 返 给 用 户 进 程 


现在 将 管道 文件 的 两 个 句 栅 返 给 用 户 进 程 ， 
即 返 给 实例 1 代码 中 的 fd[2]。 这 个 数组 有 两 项 ， 
一 项 分 别 存放 一 个 句柄 ， 这 样子 进程 也 将 继 芭 这 
两 个 文件 句柄 ， 父 子 两 个 进程 就 可 以 通过 不 同 的 
文件 句柄 操作 这 个 管道 文件 了 。 执 行 代码 如 下 : 


/代码 路 径 : fs/pipe.c: 


int sys_pipe (unsigned long * fildes) 


ee 


f[0]- >f inode=f[1]->f inode=inode; 
f[0]- > f_pos=f[1]- > f_pos=0; 

f[O]- > f_mode=1; /*read*/ 

f[1]- > f_mode=2; /*write*/ 


put _fs long (fd[0], O+fildes) ; /设置 读 管 道 文 件 句柄 


put _fs_long (fd[1], 1+fildes) ; /设置 写 管道 文件 句柄 
return 0; 


} 
将 管道 文件 句柄 返 给 用 户 进程 隐 结 末 如 图 8-6 
Pras 
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Al 8-6 将 管道 文件 句柄 返 给 用 户 进程 


8.1.2 ”管道 的 操作 


Linux 0.11 管 道 操 作 要 实现 的 效 末 生 ， 访 管道 
进程 执行 时 ， 如 来 管 近 中 有 林 读 数据 ， 束 读 取 数 
据 ， 没 有 未 庶 数 据 ， 束 挂 起 ， 这 样 殉 不 会 读 取 二 
RAGE; 写 管 站 进程 执行 时 ， 如 采 管 直 中 有 剩余 
TH, WIAR, KARRE T, WIE, 
FM DA aie ARTA o Fb, EEK 
小 只 有 一 个 页 面 ， 所 以 写 或 读 刘 页面 尾 姗 后， 读 
Ea ET Be Be Ms EIR Bl A TT E Yim LA RARER o 


回 深 的 实现 代码 如 下 : 
/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) // 读 管道 指针 


{ 


ee ee 


if (chars > size) 

chars=size; 

count-=chars ; 

read+=chars; 

size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; // 读 多 少数 据 ， 指 针 就 偏 移 多 少 


PIPE _TAIL (*inode) &= (PAGE_SIZE-1) ; /指针 超过 一 个 页 
m, (&=) 操作 可 以 实现 自动 回 滚 


while (chars-->0) 


put _fs_byte ( ( (char*) inode->i size) [size++]，buf++) ; 


I 


int write_pipe (struct m_inode * inode,char * buf,int count) // 写 管道 
指针 


ee 


if (chars > size) 

chars=size; 

count-=chars ; 

writtent+=chars; 

size=PIPE_HEAD (*inode) ; 

PIPE _HEAD (*inode) +=chars; // 写 多 少数 据 ， 指 针 就 偏 移 多 少 


PIPE HEAD (*inode) &= (PAGE SIZE-1) ; /指针 超过 一 个 页 
(&=) 操作 可 以 实现 自动 回访 


while (chars-->0) 


( (char*) inode->i_size) [size++]=get_fs_byte (buf++) ; 


在 不 断 回 深 操 作 的 情况 下 ， 控 制 写 入 和 读 
取 ， 以 及 将 进程 唤醒 和 挂 起 的 代码 如 下 : 


// 代 码 路 径 : include/linux/fs.h: 
#define PIPE HEAD (inode) ( (inode) .i zone[0]) 
#define PIPE TAIL (inode) ( (inode) .i_zone[1]) 


#define PIPE SIZE (inode) ( (PIPE HEAD (inode) - 
PIPE TAIL (inode) ) & (PAGE SIZE-1) ) 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) V/ 读 管道 指针 


ee 


while (count>0) { 


while (! (size=PIPE SIZE (*inode) ) ) {/ 读 写 指针 重合 时 ， 
就 视 为 把 管道 中 数据 都 读 完 


wake up (&inode->i_wait) ; /管道 数据 都 读 完 了 ， 唤 醒 写 管道 
进程 


if (inode->i_count! =2) /*are there any writers?*/ 

return read; 

sleep _on (S&inode->i_wait) ; // 没 数据 读 了 ， 将 读 管道 进程 挂 起 
} 

chars=PAGE_SIZE-PIPE_TAIL (*inode) ; 

if (chars > count) 

chars=count; 

if (chars > size) 

chars=size; 


ee ee 


wake _up (&inode->i_wait) ; / 读 取 了 数据 ， 意 味 着 管道 有 剩余 
空间 了 ， 唤 醒 写 管道 进程 


return read; 


} 


int write_pipe (struct m_inode * inode,char * buf,int count) // 写 管道 


HET { 


ee ee 


while (count>0) { 


while (! (size= (PAGE SIZE-1) -PIPE SIZE (*inode) ) ) {// 
写 指 针 最 多 能 写 入 4095 t 字 节 的 数据 ， 就 视 为 把 管道 写 满 了 (一 个 页 面 
大 小 为 4096 字 节 ) 


wake _up (&inode->i_wait) ; /管道 写 满 了 ， 有 数据 了 ， 唤 醒 读 
管道 进程 


if (inode->i_count! =2) {/*no readers*/ 
current- > signall= (1<< (SIGPIPE-1) ) ; 
return written?written: -1; 

} 


sleep _on (&inode->i_wait) ; / 没 剩余 空间 了 ， 将 写 管道 进程 挂 


} 

chars=PAGE_SIZE-PIPE_HEAD (*inode) ; 
if (chars > count) 

chars=count; 

if (chars > size) 


chars=size; 


ee 


wake up (S&inode->i_wait) ; // 写 入 了 数据 ， 意 味 着 管道 有 数据 
了 ， 唤 醒 读 管道 进程 


return written; 


} 


当 管 道中 所 有 可 写 空 间 全 伞 写 满 时 ， 写 管道 
指针 回 滚 一 圈 ， 与 读 管 道 指 针 兰 1 字 和 ， 这 时 应 把 
写 管 道 进程 挂 起 。Linux 0.11 将 sys_write () 函数 


设计 为 ， 写 管道 进程 一 次 最 多 只 能 写 4095 字 他 。 
下 面 我 们 通过 实例 1， 介 绍 管道 操作 的 过 程 。 
1. 读 管道 进程 开始 操作 管道 文件 


SE GIL AEN Se ive, Wea Pt 
程 ， 即 读 管道 进程 。 创 建 完毕 后 ， 我 们 不 妨 假 设 


此 时 系统 中 只 有 读 管 道 和 写 管道 两 个 进程 处 于 就 
绪 态 ， 而 且 读 管道 进程 先 执 行 ， 执 行 实例 1 

中 “read (fd[0], str2, strlen (str2) ) ”这 行 源 代 
码 。read () 函数 会 映射 到 系统 调用 了 范 数 sys_read 
O 中 去 执行 ， 并 最 终 执行 到 read_pipe () 函数 
中 。 由 于 此 时 管道 内 没有 任何 数据 ， 所 以 此 时 系 
统 会 将 读 管道 进程 挂 起 ， 然 后 切换 到 写 管道 进程 
中 去 执行 。 执 行 代码 如 下 : 


/代码 路 径 : fs/read_write.c: 


int sys_read (unsigned int fd,char * buf,int count) 


verify _area (buf,count) ; 
inode=file- > f_inode; 


if (inode->i_pipe) 


return (file->f mode&1) ?read_pipe (inode,buf,count) : - 
EIO; // 调 用 读 管道 函数 


if (S ISCHR (inode->i mode) ) 


return rw_char (READ,inode->i zone[0], buf,count, &file-> 
f_pos) ; 


ee 


/代码 路 径 : fs/pipe.c: 
int read_pipe (struct m_inode * inode,char * buf,int count) 


ME ASEE 


int chars,size,read=0; 
while (count> 0) { 


while (! (size=PIPE SIZE (*inode) ) ) {// 管 道中 没有 数据 ， 
进入 此 循环 执行 


wake _up (&inode->i wait) ; 
if (inode->i count! =2) /*are there any writers?*/ 


return read; 


sleep _on (&inode->i_wait) ; /将 读 管道 进程 挂 起 ， 切 换 到 写 管 
道 进程 (已 经 假设 系统 中 只 有 操作 管道 的 两 个 进程 处 于 就 绪 态 ) 


} 
chars=PAGE SIZE-PIPE TAIL (*inode) ; 
if (chars> count) 


chars=count; 


ee ee 


ee ee 
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起 ， 进 程 的 状态 如 图 8-7 所 示 。 
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8-7 ”进程 开始 操作 管道 一 一 挂 起 读 进程 
2. 写 管道 进程 同和 害 道 中 写 入 数据 


写 管 道 进程 开始 执行 ， 它 会 将 实例 1 中 的 strl 
数组 中 指定 的 1024 字 节 的 数据 循环 地 写 入 管道 
内 ， 即 执行 “write (fd[1], str1, strlen 

(str1) ) ”这 行 源 代码 。write () 函数 会 映射 到 
系统 调用 函数 sys_write O 中 去 执行 ， 并 最 终 执 


行 到 write_pipe O HAH Sita, Hite 
经 有 数据 可 以 读 出 ， 唤 醒 读 管道 进程 ( 

管道 进程 并 不 等 于 读 管道 进程 就 立即 执行 ) ,上 

次 写 管 道 操作 就 执行 完毕 。 执 行 代码 如 下 : 


/代码 路 径 : fs/read_write.c: 


int sys_write (unsigned int fd,char * buf,int count) 


if (! count) 

return 0; 

inode=file- > f_inode; 
if (inode->i_pipe) 


return (file->f mode&2) ?write pipe (inode,buf,count) : - 


EIO; /WWAS fig we 


if (S ISCHR (inode->i mode) ) 


return rw_char (WRITE,inode->i_zone[0], buf,count, &file-> 


f_pos) ; 


ee 


/代码 路 径 : fs/pipe.c: 


’ 


im 


int write_pipe (struct m_inode * inode,char * buf,int count) // 写 管 


HAL 


H 
x 


int chars,size,written=0; 

while (count>0) { 

size=PIPE_HEAD (*inode) ; 

PIPE HEAD (*inode) +=chars; 

PIPE HEAD (*inode) &= (PAGE SIZE-1) ; 
while (chars-- > 0) 


( (char *) inode->i_size) [size++]=get_fs_byte (buf++) ; //JH 


管道 中 写 入 数据 


} 


wake _up (&inode->i_wait) ; /唤醒 读 管道 进程 
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A 8-8 写 管 道 进程 癌 管 道中 写 入 数据 


3. 写 管道 进程 继续 回 管 道 写 入 数据 


当前 进程 是 写 管 道 进程 ， 写 完 一 次 管道 之 后 
将 返回 用 户 空 间 。 通 过 实例 1 中 *for (i=0; i< 
10000; i++) ”这 行 代码 我 们 得 知 ， 写 管道 要 操作 
10 000 次 ， 而 写 管 道 进程 的 时 间 片 还 没有 用 完 

还 要 继续 执行 写 管道 操作 。 


器 窟 道中 不 断 写 入 数据 的 过 程 如 图 8-9 所 示 。 
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8-9 eRe NIST |e) Be FS ABE 


不 妨 假设 在 写 管 道 进程 工作 的 过 程 中 ， 发 生 
了 时 钟 中 断 ， 削 城 了 它 的 时 间 片 ， 只 要 时 间 片 不 
被 削减 为 0， 它 吏 会 继续 执行 。 对 应 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 


void do_timer (long cpl) /时 钟 中 断 处 理 函 数 


if (next_timer) { 

next _timer- > jiffies--; 

while (next_timer& &next_timer->jiffies<=0) { 
void (*fn) (void) ; 

fn=next_timer- > fn; 

next _timer- > fn=NULL; 


next _timer=next_timer- > next; 


if (current_DOR&Oxf0) 


do _floppy_timer () ; 


if ( (--current-> counter) >0) return; /时 间 片 不 为 0， 直 接 返 回 
current- > counter=0; 

if (! cpl) return; 

schedule () ; 


} 


图 8-10 的 下 方 表 示 了 发 生 时 钟 中 断后 对 写 管 
道 进 程 的 影响 。 
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图 8-10 写 管道 执行 过 程 中 产生 时 钟 中 断 


直到 写 管 道 进程 把 管道 写 满 为 止 〈 写 入 4095 


ST pei) 。 在 写 入 的 过 程 中 ， 写 管道 指针 
一 直 指 同 数 据 的 写 入 位 置 ， 一 直 癌 管道 尾 闹 移 


写 管道 进程 挂 起 


写 满 后 ， 系 统 吏 要 将 写 管 道 进程 挂 起 ， 然 后 
切换 到 读 管道 进程 去 执行 。 执 行 代 码 如 下 : 


/代码 路 径 : fs/pipe.c: 

int write_pipe (struct m_inode * inode,char * buf,int count) 
{ 

int chars,size,written=0; 

while (count>0) { 


while (! (size= (PAGE SIZE-1) -PIPE SIZE (*inode) ) ) {// 
4095 7 wien T, WANS, wt Awhilefi4T 


wake _up (&inode->i_wait) ; 

if (inode->i_count! =2) {/*no readers*/ 
current- > signall= (1<< (SIGPIPE-1) ) ; 
return written?written: -1; 

} 


sleep _on (&inode->i_wait) ; // 写 管道 进程 挂 起 ， 切 换 到 读 管 道 
进程 去 执行 


} 


写 管 道 进程 挂 起 并 切换 到 读 管 道 进程 的 过 程 
如 图 8-11 所 示 。 
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B 
[管道 (内 存 页 面 ) 


管道 首 指 针 ( 写 管道 ) “ 
satis | 4095 字 节 


管道 尾 指针 ( 读 管道 ) 


父 进程 子 进程 
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6. 读 管道 进程 从 害 道 中 读 出 数据 


读 管 道 进程 将 继续 在 read_pipe () 函数 中 执 
行 。 和 根据 实 例 1 的 代码 ， 此 次 执行 将 会 把 管道 中 
512 字 世 的 数据 谈 入 谈 管 道 进程 的 用 户 空 间 内 。 执 
行 代码 如 下 : 


/代码 路 径 : fs/pipe.c: 


int read_pipe (struct m_inode * inode,char * buf,int count) 


chars=PAGE SIZE-PIPE TAIL (*inode) ; 
if (chars > count) 
chars=count; 


if (chars > size) 


chars=size; 

count-=chars ; 

read+=chars; 

size=PIPE_TAIL (*inode) ; 

PIPE _TAIL (*inode) +=chars; // 读 多 少 ， 指 针 移动 多 少 
PIPE TAIL (*inode) &= (PAGE SIZE-1) ; 

while (chars-- > 0) 


put _fs byte ( ( (char*) inode->i size) [size++], buf++) ; // 
读数 据 的 执行 代码 


ee ee 


谈 出 了 数据 ， 和 意味 者 有 了 剩余 空间 ， 系 统 此 
时 会 唤醒 写 害 道 进程 。 执 行 代 码 如 下 : 


/代码 路 径 : fs/pipe.c: 


int read_pipe (struct m_inode * inode,char * buf,int count) 


ee 


size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; 

PIPE TAIL (*inode) &= (PAGE SIZE-1) ; 

while (chars-- > 0) 

put _fs_byte ( ( (char*) inode->i_size) [size++], buf++) ; 
} 

wake _up (&inode->i_wait) ; /唤醒 写 管道 进程 


} 


读 


中 管 道 进程 从 管道 中 读 出 数据 的 过 程 如 图 8- 
12 所 示 。 
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8-12 ” 谈 管 道 进程 从 管道 中 谈 出 数据 


7. 谈 千 道 进程 继续 执行 ， 不 断 从 管道 中 访 出 


数据 


当前 进程 还 是 
将 返回 用 户 空 间 。 通 


20000; j++) "3X7 


20 000x, m Hix 


(j=0 
J 代码 我 们 得 知 ， 读 管道 要 操作 


LIE 


读 管道 进程 ， 读 一 次 管道 之 后 


Bit SE Pl “for j< 


0; 


进程 的 时 间 卢 还 没有 用 


完 ， 所 以 还 要 继续 执行 谈 官 道 操 作 。 谈 秆 道 进 程 
不 断 从 管道 中 谈 出 数据 的 过 程 如 多 8-13 所 示 。 
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Al 8-13 读 管 道 进程 不 断 从 管道 读 出 数据 


8. 读 管道 进程 执行 中 发 生 时 钟 中 断 


假设 在 读 管 这 进程 工作 的 过 程 中 ， 也 发 生 时 
PERET, KIT EITHR, RZADKO, € 


就 继续 执行 。 执 行 代码 如 下 


// 代 码 路 人 径 : kernel/schde.c: 


void do_timer (long cpl) 


if (next timer) { 
next _timer- > jiffies--; 
while (next_timer& &next_timer->jiffies<=0) { 
void (*fn) (void) ; 
fn=next_timer- > fn; 
next _timer- > fn=NULL; 
next _timer=next_timer- > next; 
(fn) () ; 
} 


} 


if (current DOR&0xf0) 


do _floppy_timer () ; 


if ( (--current-> counter) >0) retum; /时 间 片 不 为 0， 直 接 返 回 
current- > counter=0; 

if (! cpl) return; 

schedule () ; 


} 


官 道 进程 执行 过 程 中 发 生 时 名 中 断 的 处 理 
方法 如 图 8-14 所 示 “。 注 意图 中 谈 管 道 进程 的 进程 
R, EITHA EKR ° 
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| 管道 (内 存 页 面 ) 


管道 首 指针 ( 写 管道 ) “ 


= | 4095 字 节 


管道 尾 指针 ( 读 管道 ) 
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时 间 片 
| 就 绪 态 wiles | 就 绪 态 
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读 管 道 进程 执行 过 程 中 又 一 次 发 生 时 钟 中 断 
后 ， 读 管 己 进程 时 间 片 为 0， 它 被 挂 起 并 切换 到 写 
管道 进程 去 执行 。 执行 代码 如 下 : 


/代码 路 径 : kernel/schde.c: 


void do_timer (long cpl) 


if (current_DOR&Oxf0) 

do _floppy_timer () ; 

if ( (--current->counter) >0) return; // 时 间 片 为 0 
current- > counter=0; 

if (! cpl) return; 

schedule () ; /进程 切换 


} 


对 于 时 钟 中 断 的 处 理 如 图 8-15 所 示 。 图 中 代 
表 访 管道 进程 的 进程 条 的 时 间 瞩 已 经 削减 为 0。 
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Al 8-15 该 进程 执行 过 程 中 发 生 时 钟 中 断 


值得 注意 的 是 ， 两 次 时 钟 中 断 的 产生 并 不 会 
影响 到 数据 的 写 入 或 读 出 ， 根 本 原因 是 数据 的 写 
入 和 读 出 都 生 在 0 特权 级 的 内 核 代 码 中 进行 的 ， 完 
全 由 系统 控制 ， 只 会 削减 时 间 片 ， 不 会 影响 数据 
操作 的 执行 。 


10. 访 官 道 进 程 切换 到 写 管 道 进程 执行 


写 管 道 进程 挂 起 前 ， 管 道 操 作 指针 已 经 被 移 
动 至 管道 首 端 。 接 下 来 。 写 管道 进程 将 从 管道 百 

问 开 始 ， 继 续 往 管道 中 写 入 数据 ， 直 到 再 次 没有 
和 独 余 空间 为 止 。 该 过 程 如 图 8-16 所 示 。 
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图 8-16 写 管 道 进程 继续 写 入 数据 


11. 写 管道 进程 挂 起 ， 切 换 到 读 管道 进程 执行 


IEP AK Sia, SP CEMA 
统 挂 起 ， 之 后 束 切 换 到 读 管道 进程 去 执行 。Linux 
0.11 重 新 分 配 时 间 厂 的 原则 古 当 所 有 处 于 束 绪 仿 
的 进程 时 间 上 厂 均 为 0 时 ， 分 配 时 间 瞩 。 由 于 此 时 读 
管道 进程 是 唯一 处 于 吏 绪 仿 的 进程 ， 并 且 它 的 时 
间 厂 也 用 完了 ， 重 新 给 它们 分 配 时 间 厂 ， 执 行 代 
Aan F: 


/代码 路 径 : kernel/schde.c: 


void schedule (void) 


ee 


next=0; 

i=NR_TASKS; 

p=&task[NR_TASKS]; 

while (--i) { 

if (! *-p) 

continue; 

if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
c= (*p) ->counter,next=i; 

} 

if (c) break; 

for (p=&LAST_TASK; p>&FIRST_TASK; --p) /分 配 时 间 片 
if (*p) 

(*p) ->counter= ( (*p) ->counter>>1) + 

(*p) -> priority; 

} 


Switch _to (next) ; 


然后 ， 读 管道 进程 继续 执行 ， 读 取 一 部 分 数 
据 的 过 程 如 图 8-17 所 示 。 
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12. 访 官 道 进程 继续 执行 ， 直 到 把 管 秆 中 的 数 


进程 开始 执行 后 ， 将 继 伟 把 管 近 中 
效 据 读 出 。 当 操作 到 管道 尾 册 后， 也 会 将 读 管 道 
指针 从 管 盾 尾 闹 移 动 至 管道 自 闹 ， 并 从 自 闹 继续 
读 取 管 道中 的 内 容 ， 直 至 将 数据 彻 撒 谈 完 ， 两 个 
指针 重合 。 执 行 代码 如 下 : 


// 代 码 路 径 : fs/pipe.c: 


int read_pipe (struct m_inode * inode,char * buf,int count) 


ee ee 


while (count>0) { 


while (! (size=PIPE SIZE (*inode) ) ) {// 指 针 重 合 ， 证 明 数 
据 读 完 


wake _up (&inode->i_wait) ; /唤醒 写 管 道 进程 
if (inode->i_count! =2) /*are there any writers?*/ 


return read; 


sleep _on (S&inode->i_wait) ; /将 读 管道 进程 挂 起 ， 切 换 到 写 管 
道 进 程 执行 


} 

chars=PAGE_SIZE-PIPE_TAIL (*inode) ; 
if (chars > count) 

chars=count; 

if (chars > size) 

chars=size; 

count-=chars ; 

read+=chars; 

size=PIPE_TAIL (*inode) ; 

PIPE TAIL (*inode) +=chars; 

PIPE TAIL (*inode) &= (PAGE SIZE-1) ; 
while (chars-- > 0) 


put _fs byte ( ( (char*) inode->i size) [size++], buf++) ; // 


读 取 数据 


该 过 程 如 图 8-18 所 示 。 
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Al 8-18 该 管道 进程 将 管道 中 的 数据 读 完 


从 表面 对 管道 操作 的 介绍 中 不 难 发 现 ， 两 个 


进程 占用 一 个 管道 的 标志 是， 在 file_table[64] 中 两 


MEET A SPE “Mea ECFA filed, LAT LAX 


官 道 进行 操作 。 
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如 果 进 程 A 创 建 两 个 管道 ， 并 创建 进程 B,A、 
B 两 个 进程 天 可 以 利用 这 两 个 管道 进行 逸 回 的 数 
据 交 互 ， 情 景 如 图 8-19 所 示 。 


管道 
0 
进程 A 进程 B 
== 
管道 


8-19 ”两 个 进程 使 用 管 近 敢 同 数据 交互 
如 来 进程 A 创建 六 个 管道 ， 并 创建 进程 B 和 进 
EC, A ` By Ca Sat emt A) LAA AARNet 
行 两 两 敢 同 的 数据 交互 ， 情 景 如 图 8-20 所 示 。 


进程 B 
进程 C 


Al 8-20 三 个 进程 使 用 管道 两 两 刻 癌 数据 区 互 


让 
的 数量 不 超过 file_ table[64] 的 承载 力 ， 就 可 以 构建 
出 任意 复杂 的 管道 组 合 操作 结构 。 


8.2 ”信号 机 制 


言 号 机 制 是 Linux 0.11 为 进程 提供 的 一 套 “ 局 
部 的 类 中 断 机 制 *”， 即 在 进程 执行 的 过 程 中 ， 如 琳 
系统 发 现 某 个 进程 接收 到 了 信号 ， 丈 和 暂时 打上 嘻 进 
程 的 执行 ， 转 而 去 执行 该 进程 的 信号 处 理 程 序 ， 
处 理 完 毕 后 ， 再 从 进程 “被 打 靳 ”之 处 继续 执行 。 


本 慷 将 分 两 部 分 对 信和 与 机 制 进行 详细 的 介 


Ziy o 


第 一 部 分 : 通过 实例 2 的 执行 过 程 ， 对 系统 以 
及 进程 处 理 信 号 的 过 程 进行 详细 的 介绍 。 

第 二 部 分 : ASML SAAT Re at 
程 的 执行 状态 。 


文 定 一 个 天 于 “信号 的 有 发送 、 接 收 以 及 处 
理 ” 的 实例 。 我 们 将 以 此 来 介绍 对 系统 以 及 进程 处 
理 信号 的 过 程 


有 两 个 用 户 进程 。 一 个 进程 用 来 接收 及 处 理 
言 号 ， 名 字 叫 做 processsig。 它 所 对 应 的 程序 源 代 
码 如 下 : 


#include < stdio.h > 

#include < signal.h > 

void sig_usr (int signo) /处 理 信号 的 函数 
{ 

if (signo==SIGUSR1) 

printf ("received SIGUSRI1\n") ; 


else 


printf ("received%d\n", signo) ; 


signal (SIGUSR1, sig_usr) ; /重新 设置 processsig 进 程 的 信号 处 
理 函 数 指针 ， 以 便 下 次 使 用 


} 
int main (int argc,char ** argv) 
{ 


signal (SIGUSR1, sig_usr) ; // 挂 接 processsig 进 程 的 信号 处 理 范 
数 指针 


for (; ) 
pause () ; 
return 0; 


} 


男 一 个 进程 用 来 发 送信 号 ， 名 字 叫 做 
sendsig。 它 所 对 应 的 源 代码 如 下 : 


#include < stdio.h > 


int main (int argc,char ** argv) 


int pid,ret,signo; 
int i; 

if (argc! =3) 
{ 

printf ("Usage: sensig<signo><pid>\n") ; 
return-1; 

} 

signo=atoi (argv[1]) ; 

pid=atoi (argv[2]) ; 

ret=kill (pidjsigno) ; /这 里 发 送信 号 
for (i=0; i<1000000; i++) 

if (ret! =0) 

printf ("send signal erron") ; 


return 0; 


系统 需要 具备 以 下 三 个 功能 ， 以 支持 信和 号 机 


1. 系 统 要 文 持 进程 对 信号 的 发 送 和 接收 


系统 在 每 个 进程 task_struct 中 都 设置 了 用 以 接 
收 信号 的 数据 成 员 signal (信号 位 图 ) ， 每 个 进程 
接收 到 的 信号 吏 “ 按 位 ?存储 在 这 个 数据 结构 中 。 
系统 文 持 两 种 方式 给 进程 发 送信 号 : 一 种 方式 是 
一 个 进程 通过 调用 符 定 的 库 函 数 给 发 一 个 进程 发 
送信 和 号， 另 一 种 方式 是 用 户 通过 键盘 输入 信息 产 
生 键 一 中 断后 ， 中 断 服务 程序 给 进程 发 送信 号 。 
这 两 种 方式 的 信号 发 送 原理 是 相同 的 ， 都 是 通过 
设置 信号 位 图 (signal) 上 的 信号 位 来 实现 的 。 


本 实例 将 结合 第 一 种 方式 ， 即 一 个 进程 给 为 
一 个 进程 发 送信 号 来 展现 系统 对 信号 的 发 送 和 接 
收 。 


2. 系 统 要 能 够 及 时 检测 到 进程 接收 到 的 信号 


系统 通过 两 种 方式 来 检测 进程 是否 接收 到 信 
F: 一 种 方式 生 在 系统 调用 返回 之 前 检测 当前 进 
ee RE eS; 态 一 种 方式 是 时 名 中 断 产 生 
后 ， 其 中 断 服 务 程 序 执行 结束 之 前 ， 检 测 当前 进 
程 是 侣 接收 到 信号。 


这 两 种 信号 检测 方式 大 体 类 似 。 本 实例 将 结 
合 第 一 种 方式 来 展现 系统 对 进程 接收 到 的 信号 的 
仿 测 。 


3. 系 统 要 文 持 进 程 对 信和 与 进行 处 理 


系统 要 能 够 保证 ， 当 用 户 进程 不 需要 处 理 信 
号 时 ， 信 和 号 处 理 函 数 完全 不 参与 用 户 进程 的 执 
行 ， 当 用 户 进 程 需要 处 理 信 号 时 ， 进 程 的 程序 将 
暂时 集 止 执行 ， 转 而 去 执行 信号 处 理 函 数 ， 得 信 
号 处 理 画 数 执行 完毕 后 ， 进 程 程序 将 从 “ 暂 集 的 现 
场 处 ”继续 执行 。 


本 实例 将 从 “用 户 目 定义 的 信号 处 理 函 数 与 进 
程 进行 绑 定 *”、“ 系 统 对 信号 的 预 处 理 * 和 “信号 处 
理 完 毕 后 进程 现场 的 恢复 ”这 二 方面 入 手 来 展现 系 
统 征 如 何 做 到 这 些 的 。 


下 面 我 们 束 来 介绍 这 两 个 进程 痢 征 如 何 开始 
运行 的 。 现 在 用 户 处 于 shell 弄 面 下 。 


第 一 步 : 输入 如 下 指令 ， 运 行 processsig 进 程 
的 程序 。 


[/usr/root ]}#./processsig & 
<160>/ 这 里 可 知 processsig 进 程 的 进程 号 是 160 


[/usr/root |# 


输入 如 下 指令 ， 运 行 sendsig 进 程 的 
程序 ， 发 送信 号 SIGUSR1 给 processsig 进 程 。 


[/usr/root]#./sendsig 10 160/10 代 表 SIGUSR1 这 个 信号 ，160 是 
processsig 进 程 的 进程 号 


received SIGUSR1 


[/usr/root |# 


现在 ， 我 们 开始 分 别 介绍 这 两 个 进程 的 执行 
情况 。processsig 进 程 是 完 开 始 执 行 的 ， 我 们 和 完 来 


介绍 它 的 执行 情况 。 


8.2.1 信号 的 使 用 


1.processsig 进 程 开 始 执行 


processsig 进 程 开 始 执行 ， 要 为 撑 收 信号 做 准 
备 ， 具 体 表 现 为 ， 指 定 对 哪 种 信号 进行 什么 样 的 
处 理 。 为 此 ， 进 入 main O 函数 后 ， 先 要 将 用 户 
目 定 义 的 信号 处 理 函 数 与 processsig 进 程 纯 定 。 用 
户 程序 是 通过 调用 signal \) 函数 来 实现 这 个 绑 定 
的 。 这 个 国 数 是 库 国 数 ， 它 执行 后 会 产生 软 中 断 
intOx80, FFBRATBsys signal () 这 个 系统 调用 了 画 
数 去 执行 。sys_signal O 函数 的 功能 是 将 用 户 目 
定义 的 信号 处 理 函 数 sig_usr () 与 processsig 进 程 
绑 定 。 这 意味 着 ， 只 要 processsig 进 程 接收 到 


SIGUSR1 信 号 ， 就 调用 sig_usr 函 数 来 处 理 该 信 
号 ， 绑 定 工 作 束 是 通过 该 函数 来 完成 的 。 


进入 sys_signal () KEUS, KANAE 
之 前 检测 用 成 指定 的 信号 十 舍 符 合 规 是 。 由 于 
Linux 0.11 中 只 能 默认 处 理 32 种 信 写 ， 而 且 默 认 名 
略 SIGKILL 这 个 信号 ， 所 以 只 要 用 户 给 出 的 信和 号 
不 从 合 这 些 要 求 ， 系 统 将 不 能 处 理 。 执 行 代码 如 


/代码 路 径 : kernel/signal.c: 

int sys_signal (int signum,long handler,long restorer) 
{ 

struct sigaction tmp; 


if (signum < 1||signum> 32||signum==SIGKILL) /经 检测 得 知 ， 信 
号 符合 规定 


return-1; 


仿 测 完毕 后 ， 开 始 对 processsig 进 程 task_struct 
中 的 sigaction[32] 进 行 设 置 。 该 管理 结构 有 32 个 成 
员 ， 正 好 对 应 默认 的 32 种 信号 。sigaction[32] 中 每 
一 个 成 员 都 会 为 每 一 种 信和 号 的 处 理 提供 一 套 服 


务 。 


执行 代码 如 下 : 


/代码 路 径 : kernel/signal.c: 


int sys_signal (int signum,long handler,long restorer) 


if (signum < 1||signum > 32||signum==SIGKILL) 


return-1; 


tmp.sa_handler= (void (*) (int) ) handler; /此 时 handler 参 数 
就 是 processsig 进 程 程序 中 "signal (SIGUSR1, sig_usr) "这 行 代码 中 
sig_usr 函 数 的 地 址 ， 这 个 绑 定 使 得 只 要 将 来 进程 接收 到 信号 ， 惑 由 
sig_usr 这 个 函数 来 处 理 


tmp.sa_mask=0; 
tmp.sa_flags=SA_ONESHOT|SA_NOMASK;; 


tmp.sa_restorer= (void (*) (void) ) restorer; /这 里 绑 定 现场 
恢复 函数 


handler= (long) current- > sigaction[signum-1].sa_handler; 


current- > sigaction[signum-1]=tmp; /sigaction[signum-1] 这 一 项 将 


为 SIGUSR1 信 和 号 提供 服务 


return handler; 


此 设置 如 图 8-21 所 示 。 


| handler( 信 号 处 理 函 数 地 址 ) 
| | restorer( 现 场 恢复 函数 地 址 ) 


signum-1 项 


sigaction[32] 


Al 8-21 设置 用 户 进 程 信号 处 理 函 数 节 址 


值得 注意 的 是 ， 图 8-21 中 的 restorer O 函数 
也 在 sys_signal () KFE J ° restorer () EH 
数 的 功能 也 很 重要 ， 后 面 我 们 会 详细 介绍 。 


processsig 进 程 的 状态 及 其 代码 在 内 存 中 的 情 
况 如 图 8-22 所 示 ， 此 时 processsig 进 程 处 于 束 绪 


KX o 
JOS 


iiir a 0x9FFFF OxFFFFF Ox3FFFFF OQxSFFFFF OxFFFFFF 
| 
tos E S 
i eo 
进程 状态 CS:EP 
processsigitt Fi 
| 就 绪 态 


8-22 ”processsig 进 程 及 其 代码 在 内 存 中 的 情 
tt 


2.processsig 进 程 进 入 可 中 上 断 等 待 状态 


在 processsig 进 程 的 程序 中 ， 为 了 体现 信号 对 
进程 执行 状态 的 影响 ， 我 们 特意 调用 了 pause () 
EAL ° KAUR Se BUTE EI BA“ Ay P 
断 等 每 状态 ”。 等 到 该 进程 接收 到 信号 后 ， 它 的 状 

AS RE EA FY PT Se PAS FRA ZS” © 


zX 


执行 完 signal () 函数 后 ， 将 返回 processsig 进 
程 的 用 户 空 间 继续 执行 ， 调 用 pause () 函数 。 

函数 会 映射 到 系统 调用 函数 sys_pause () 中 。 
执行 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 


int sys_pause (void) 
{ 


current- > state-TASK_INTERRUPTIBLE; /将 processsig 进 程 设 置 
为 可 中 断 等 待 状态 


schedule () ; /切换 进程 


return 0; 


processsig 进 程 将 被 设置 为 可 中 上 断 等 竺 状态 ， 
如 图 8-23 所 示 。 


0x00000 0x9FFFF OxFFFFF Ox3FFFFF OxSFFFFF OxFFFFFF 


aT ET 


CS:EIP | 
切换 到 进程 0 
Ey processsig 进 程 代 码 
ne ET OEA 
processsig 进 程 


| 可 中 断 等 待 状态 


ee | 


8-23 ”processsig 进 程 进 入 可 中 断 等 竺 状态 


3.sendsig 进 程 开始 执行 并 同 processsig 进 程 发 


processsig 进 程 特 时 挂 起 ，sendsig 进 程 执 行 。 
sendsig 进 程 就 会 给 processsig 进 程 发 送信 号 ， 然 后 
切换 到 processsig 进 程 去 执行 。 


sendsig 进 程 会 先 执行 “ret=kill (pid,signo) ”这 
一 行 代码 ， 其 中 k 记 是 个 库 函 数 ， 最 终 会 映射 到 
sys_kill 芳 数 中 去 执行 ， 并 将 参照 “10” 和 “160” 这 两 
个 参数 给 processsig 进 程 发 送 SIGUSR1 人 信号， 执行 
代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int sys_ kill (int pid, int sig) 


ee 


if (! pid) while (--p>&FIRST_TASK) { 

if (*p&& (*p) ->pgrp==current-> pid) 

if (err=send_sig (sig, *p, 1) ) 

retval=err; 

Jelse if (pid>0) while (--p>&FIRST_TASK) { 
if (*p&& (*p) ->pid==pid) /找到 processsig 进 程 
if (err=send_sig (sig, *p, 0) ) /此 函数 负责 具体 的 发 送 工 作 
retval=err; 

Jelse if (pid==-1) while (--p> &FIRST_TASK) 

if (err=send_sig (sig, *p, 0) ) 

retval=err; 


ee 


/代码 路 径 : kernel/exit.c: 


static inline int send_sig (long sig,struct task_struct * p,int priv) 


{ 

if (! pllsig< 1llsig> 32) 

return-EINVAL; 

if (priv|| (current- > euid==p- > euid) ||suser () ) 


p->signall= (1<< (sig-1) ) ; /在 processsig 进 程 的 信号 位 图 
(signal) 中 找到 SIGUSR1 这 一 信号 对 应 的 位 置 ， 然 后 将 其 置 1 


else 
return-EPERM; 
return 0; 


} 


将 SIGUSR1 信 号 发 送 给 processsig 进 程 的 过 程 
及 该 过 程 对 processsig 进 程 管理 结构 中 相应 字段 的 
影响 如 图 8-24 所 示 。 


之 后 ， 台 返回 sendsig 用 户 进 程 空 间 内 继续 执 
行 随 着 时 钟 中 断 不 断 产生 ，sendsig 进 程 的 时 间 片 


将 被 削减 为 0， 导 致 进程 切换 ，schedule () 函数 
开始 执行 。 对 应 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p> &FIRST_TASK; --p) 
if (*p) { 

if ( (*p) ->alam&& (*p) ->alarm<jiffies) { 
(*p) ->signall= (1<< (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( p) ->signal&~ (_BLOCKABLE& (*p) -> 
blocked) ) 多 &// 遍 历 到 processsig 进 程 后 ， 检 测 到 其 接收 的 信和 号 


(*p) ->state==TASK_INTERRUPTIBLE) /processsig 进 程 还 是 
RAR 


(*p) ->state=TASK_RUNNING; /将 其 设置 为 就 绪 态 


该 过 程 如 图 8-25 所 示 。 
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图 8-24 给 processsig 进 程 发 送信 和 号 
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图 8-25 processsig 进 程 收 到 信号 后 ， 被 置 为 加 


等 到 第 二 次 遇 有 历时， 融会 切换 到 processsig 进 
程 去 执行 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 


void schedule (void) 


{ 


ee ee 


next=0; 

i=NR_TASKS; 

p=&task[NR_TASKS]; 

while (--i) { 

if (! *--p) 

continue; 

if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
c= (*p) ->counternext=i; /这 时 候 processsig 进 程 已 经 就 绪 了 
} 

if (c) break; 

for (p=&LAST_TASK; p> &FIRST_TASK: --p) 

if (*p) 

(*p) ->counter= ( (*p) ->counter>>1) + 


(*p) - > priority; 


} 
; /切换 到 processsig 进 程 去 执行 


switch to (next) 


4. 系 统 检 测 当 前 进程 接收 到 信和 号 并 准备 处 理 


processsigj 进 程 开 始 执行 后 ， 会 继续 在 for 循 环 
中 执行 pause () 函数 。 由 于 这 个 函数 最 终 会 映射 
到 sys_pause () 这 个 系统 调用 函数 中 去 执行 ， 所 
以 当 系 统 调用 返回 时 ， 束 一 定 会 执行 到 
ret_from_sys_call: 标号 处 ， 并 最 终 调 用 do_signal 
O 函数 ， 开 始 着 手 处 理 processsig 进 程 的 信号 。 
执行 代码 如 下 : 


/代码 路 径 : kernel/system_call.s: 


ret _from_sys_call: 


movl _current, %eax#task[0]cannot have signals 

cmpl _task, %eax 

je 3f 

cmpw $0x0f,CS (%esp) #was old code segment supervisor? 
jne 3f 

cmpw $0x17, OLDSS (%esp) #was stack segment=0x17? 
jne 3f 

movl signal (%eax) , %ebx 

movl blocked (%eax) , %ecx 

notl %ecx 

andl %ebx, %ecx 

bsfl %ecx, Y%ecx 

je 3f 

btrl %ecx, Y%ebx 

movl %ebx, signal (%eax ) 

incl %ecx 


pushl %ecx 


call _do_signal// 准 备 处 理 信号 


ee 


5. 系 统 检 测 信号 处 理 函 数 提 针 挂 接生 个 正 般 
现在 开始 介绍 信号 处 理 之 前 的 准备 工作 。 


进入 do_signal () 函数 后 ， 先 要 对 processsig 
进程 的 信号 处 理 畏 数 进行 判定 。 我 们 在 本 世 前 面 
介绍 过 ，processsig 进 程 的 信号 处 理 函 数 指 针 被 加 
载 人 下 了 进程 task_struct 中 的 sigaction[32] 结 构 中 ， 
如 图 8-26 所 示 。 
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8-26 ”信号 处 理 函 数 指针 在 sigaction 结 构 中 的 
位 置 


现在 这 个 指针 开始 发 挥 作用 ， 如 果 它 为 至 
该 进程 丈 很 有 可 能 退出 。 当 然 ， 此 时 的 情况 是 ， 
这 个 指针 肯定 不 为 宝 ， 它 指 同 了 processsig 进 程 的 
言 号 处 理 函 数 sig_usr () 。 检 测 工 作对 应 的 代码 
如 下 : 


/代码 路 径 : kernel/signal.c: 

void do_signal (long signr,long eax,long ebx,long ecx,long edx, 
long fs,long es,long ds, 

long eip,long cs,long eflags, 


unsigned long * esp, long ss) 


sa_handler= (unsigned long) sa->sa_handler; 

if (sa_handler==1) 

return ; 

if (! sa handler) {//QURWAGEE AZ 

if (signr==SIGCHLD) /如 果 是 SIGCHLD 信 和 号， 直接 返 回 
return ; 


else 


do_exit (1<< (signr-1) ) ; /和 否则 当前 进程 退出 


6. 调 整 processsig 进 程 的 内 核 栈 结构 ， 使 其 系 
统 调用 返回 后 ， 移 执行 信号 处 理 函 数 


这 里 所 做 的 准备 工作 的 核心 目的 是 对 用 户 栈 
中 的 数据 进行 调整 ， 使 得 此 次 系统 调用 返回 后 
会 “站 和 完 ” 执 行 processsig 进 程 的 “信号 处 理 芳 数 ”， 
然后 从 用 户 进程 < 中断 位 置 ” 继 续 执行 。 我 们 在 本 
节 前 面 所 介绍 的 pause O KAIT ŒÆint 
0x80 软 中 断 的 下 一 条 指令 处 就 是 这 个 用 户 进程 
的 “中 断 位 置 ”( 当 然 ， 如 果 不 需要 处 理 信号 ， 直 


接 返 回 “ 中 断 位 置 ”处 束 可 以 了 ， 但 现在 要 先 处 理 
言 号 问题 ， 再 回 “ 中 断 位 置 ") 。 


软 中 断 产 生 后 ，CPU 将 目 动 在 当前 进程 “内 核 
栈 ” 中 保存 用 户 进 程 执行 的 “指令 和 数据 *， 其 中 包 
括 EIP、CS、EFLAGS、ESP、SS 这 些 寄存 器 的 
值 。 这 样 ， 只 要 系统 调用 返回 , “内 核 栈 ” 中 这 些 
数值 反 填 回 对 应 的 寄存 器 ， 以 此 保证 返回 用 户 空 
间 的 “中 断 位 置 ?处 继续 执行 。 


面 对 这 种 情况 ，Linux 0.11 就 在 此 次 系统 调用 
返回 前 ， 先 把 这 些 “ 内 核 栈 ”中 保存 的 寄存 占 值 备 
份 在 当前 进程 的 “用 户 栈 ”中 (内 核 有 能 力 访问 到 
所 有 物理 内 存 ， 做 这 件 事 不 成 问题 ， 然 后 对 “内 
核 栈 ”中 的 这 些 原 有 的 寄存 名 值 进行 更 改 。 这 束 使 
RAS AA ROR ES, ECR EA i” P 


新 更 改 的 数据 跳 转 到 用 户 至 间 的 信和 号 处 理 轴 数 处 
执行 。 进 入 用 户 空 间 后 , “用户 栈 ? 融 该 发 挥 作 用 
了 ， 等 到 信号 处 理 完 秆 后， 再 通过 前 面 备份 在 用 
尸 空 间 的 “指令 和 数据 *， 返 回 “ 中 断 位 置 ” 处 执 
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具体 的 实现 代码 : 


/代码 路 径 : kernel/signal.c: 

void do_signal (long signr,long eax,long ebx,long ecx,long edx, 
long fs,long es,long ds, 

long eip,long cs,long eflags, 


unsigned long * esp, long ss) 


ee 


if (sa->sa_flags&SA ONESHOT) 


sa- > sa_handler=NULL; 


* (Seip) =sa_handler; /调整 内 核 栈 中 EIP 人 位置， 使 其 指向 
processsigi#t FERA 5 AAE EK aNsig_usr 


longs= (sa->sa_flags&SA_NOMASK) ?7: 8; 


* (&esp) -=longs; /对 "用 户 栈 "空间 的 栈 顶 指针 ESP 进 行 调整 ， 
i 旨 计 问 栈 底 的 反方 癌 移 动 ， 以 便 接 下 来 在 用 户 栈 空间 中 备份 数 


verify _area (esp,longs*4) ; 


tmp _esp=esp; //LA FHM APRER FSAATKE UGA 
put _fs_long ( (long) Sa- > sa_restorer,tmp_espt++) l 

put _fs_long (signr,tmp_esp++) ; 

if (! (sa->sa_flags&SA_NOMASK) ) 

put _fs_long (current- > blocked,tmp_esp++) : 

put _fs long (eax,tmp_esp++) ; 

put _fs long (ecx,tmp_esp++) ; 

put _fs long (edx,tmp_espt++) ; 

put _fs_long (eflags,tmp_esp++) ; 

put _fs_ long (old_eip,tmp_esp++) ; 


current- > blocked|=sa- > sa_mask; 


上 述 修 改 内 核 栈 和 用 户 栈 的 过 程 ， 以 及 用 户 
栈 空 间 和 内 核 栈 空间 的 数据 调整 前 后 的 变化 如 图 
8-27 和 图 8-28 所 示 。 


内 核 栈 空间 用 户 栈 空间 


restorer 
现场 恢复 程序 


图 8-27 调整 前 的 内 核 栈 和 用 户 栈 的 现场 数据 
及 其 意义 
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| sa_restorer 


restorer 


现场 恢复 程序 


8-28 ”调整 后 的 内 核 栈 和 用 户 栈 的 现场 数据 


言 写 预 处 理工 作 到 这 里 已 经 完成 。 下 面 我 们 
看 这 些 数 据 在 此 次 系统 调用 退回 后 都 征 如 何 被 应 
FAB, AKENI AE Sb BE BNA AAT 
后 进程 现场 的 恢复 ”都 产生 了 哪些 影响 。 


表面 已 经 将 信号 处 理 函 数 sig_usr 与 processsig 
进程 进行 了 绑 定 ， 因 此 系统 调用 返回 后 ， 歌 会 到 
processsig 进 程 的 sig_usr 函 数 处 执行 ， 处 理 信 和 号 
国 数 执行 结束 后 ， 会 执行 “ret”" 指 令 。ret 的 本 质 承 
是 用 当时 保存 在 栈 中 的 EIP 的 值 来 恢复 EIP 寄 存 

， 跳 转 到 EIP 指 向 的 地 址 位 置 去 执行 。 于 是 此 时 
处 于 栈 顶 的 sa- > sa_restorer 所 代表 的 函数 地 址 值 就 
发 挥 作 用 了 ， 此 时 就 应 该 跳 转 到 sa- > sa_restorer 所 
代表 的 函数 地 址 值 位 置 去 执行 了 。 


本 万 前 面 讲 到 ， 还 将 一 个 叫做 restorer 的 函数 
地 址 绑 定 在 gant 。 restorer 是 一 个 
库 函 数 的 地 址 ， 它 是 由 signal 这 个 库 函 数 传递 下 来 
的 实 参 。 这 个 库 函 数 将 来 会 在 信号 处 理工 作 结 束 


后 恢复 用 户 进程 执行 的 < 指令 和 数据 *， 并 最 终 跳 
转 到 用 户 程序 的 “中断 位 置 处 执行 。 


现在 信号 已 经 处 理 完 了 ，Frestorer 函 数 开 始 工 
作 。 我 们 先 来 看 一 下 这 个 函数 的 代码 : 


.globl sig restore 
.globl masksig restore 
_ Sig restore: 

addl $4, %esp 


popl %eax// Ài Hido_signal Ra Fini EAA RAN, AE 
正好 用 来 popl， 用 以 恢复 寄存 絮 的 值 


popl %ecx 
popl %edx 
popfl 

ret 


masksig_restore: 


addl $4, %esp 
call ssetmask 
addl $4, %esp 


popl %eaxV 前 面 do_signal 函 数 中 最 后 设置 的 用 户 栈 的 内 容 ， 这 里 
正好 用 来 popl， 用 以 恢复 寄存 絮 的 值 


popl %ecx 
popl %edx 


popfl 


ret 


前 面 所 介绍 的 do_signal () 函数 调整 栈 空间 
的 数值 ， 正 好 在 这 里 发 挥 作 用 。 我 们 回顾 一 下 代 
AS, UF: 


/代码 路 径 : kernel/signal.c: 
void do_signal (long signr,long eax,long ebx,long ecx,long edx, 


long fs,long es,long ds, 


long eip,long cs,long eflags, 


unsigned long * esp, long ss) 


put _fs_long ( (long) sa- > sa_restorer,tmp_esp++) ; 
put _fs_long (signr,tmp_esp++) ; 

if (! (sa->sa_flags&SA_NOMASK) ) 

put _fs_long (current- > blocked,tmp_esp++) 

put _fs_long (eax,tmp_espt++) ; 

put _fs_long (ecx,tmp_espt++) 

put _fs_long (edx,tmp_esp++) ; 

put _fs_long (eflags,tmp_espt++) ; 

put _fs_long (old_eip,tmp_esp++) ; 

current- > blocked|=sa- > sa_mask; 


} 


现场 恢复 后 ， 就 要 返回 现场 执行 。 


注意 看 restorer 罚 数 最 后 一 行 沪 编 “ret*”。 由 于 
ret 的 本 质 丈 是 用 当前 栈 顶 的 值 设置 EIP， 并 使 程序 
跳 转 到 EIP 指 癌 的 位 置 去 执行 ， 很 显然 ， 经 过 一 系 
列 清 栈 操作 后 ， 当 前 栈 顶 的 数值 束 古 “put_fs_long 

(old_eip,tmp_esp++) ”这 行 代码 设置 的 。 这 个 
0ld_eip 束 是 pause () HBC sHRGTZIsys_pause 

O 画 数 ， 产 生 软 中 断 int0x80 的 下 一 行 代码 ， 即 
processsig 进 程 的 “中断 位 置 ?。 所 以 ，ret 执 行 后 ， 
信号 就 处 理 完毕 ， 并 最 终 回 到 pause 0 函数 中 去 
继续 执行 。 


i ize Linux 0.11 中 信号 处 理 的 全 部 过 程 。 


8.2.2 ”信和 号 对 进程 执行 状态 的 影响 


下 面 将 介绍 本 节 的 第 二 部 分 内 容 ， 即 分 别 以 
进程 的 “可 中 断 等 得 状态 "和 “不 可 中 汤 等 待 状 
态 ” 为 例 进 行 对 比 ， 体 现 信 号 对 进程 执行 状态 的 不 
同 影响 。 


可 中 断 等 每 状态 案例 代码 如 下 : 


#include < stdio.h > 


main () 


exit () ; 


shell 进 程 创建 了 这 个 用 户 进 程 《该 进程 残 目 
然 成 为 shell 进 程 的 子 进程 》 后 ， 又 被 设置 为 可 中 
炸 等 待 状态 。 现 在 ， 这 个 用 户 进 程 就 要 退出 了 。 
我 们 以 此 为 例 来 介绍 信号 对 进程 执行 状态 的 影 
TE 


1. P EFES h J H shel HIER Aa y 


用 户 进程 移 调 用 exit 0 KORAH G CR 
前 的 一 些 事务 ， 包 括 将 目 己 的 程序 所 占用 的 内 存 
页 面 释放 、 解 除 该 进程 与 所 操作 文件 的 天 系 等 ， 
之 后 ， 给 shell 进 程 发 送 * 子 进程 退出 ”信号 ， 通 知 
shell 进 程 ， 目 己 即 将 退出 ， 了 最 后 将 目 己 设置 为 僵 
死 状态 并 调用 schedule O KZ, ER HEH, 
对 应 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 


int do_exit (long code) // 子 进程 退出 


ee 


if (current- > leader) 

kill session () ; 

current- > state=TASK_ZOMBIE; 

current- > exit_code=code; 

tell_father (current-> father) ; /给 父 进程 发 信号 
schedule () ; /进程 切换 

return (-1) ; /*just to suppress warnings*/ 
} 

static void tell_father (int pid) 

{ 

int 1; 

if (pid) 


for (i=0; i< NR_TASKS; i++) {// 寻 找 父 进程 ， 即 shell 进 程 


if (! task[i]) 

continue; 

if (task[i]->pid! =pid) 
continue; 


task[i]->signal|= (1<< (SIGCHLD-1) ) ; /给 shell 进 程 发 
送 " 子 进程 退出 "信和 号 


return; 


ee 


用 户 进程 退出 过 程 中 发 送信 号 以 及 将 目 吴 设 
置 为 僵 死 状态 的 过 程 如 图 8-29 所 示 。 
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8-29 用 户 进 程 回 Shell 进程 发 信号 及 将 自 号 
设置 为 僵 死 状态 


2.shell 进 程 被 唤醒 并 调度 执行 


进入 schedule () 函数 后 ， 先 对 所 有 进程 进 
一 次 角 历 ， 如 果 发 现 哪个 进程 接收 到 了 指定 的 
而 且 该 进程 还 是 可 中 断 等 等 状态， 那么 就 


fas, 
将 该 进程 设置 为 束 缮 仿 。 系 统 通过 届 历 得 知 ， 


shell 进 程 符合 此 条 件 ， 于 是 shellj 进 程 惑 被 设置 为 
整 绕 态 ， 如 图 8-30 所 示 。 


OY 0Ox9FFFF OxFFFFF OQx3FFFFF OQxSFFFFF OxFFFFFF 
| | 
BEI 
ER 
用 户 进程 shell 进 程 
| MERA | 就 绪 态 
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图 8-30 ”shell 进 程 设置 为 就 绪 态 


对 应 代码 如 下 . 


/代码 路 径 : kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p>&FIRST_TASK; --p) 


if (*p) { 


if ( (*p) ->alam&& (*p) ->alarm<jiffies) { 
(*p) ->signall= (1< < (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( p) ->signal&~ (_BLOCKABLE& (*p) -> 
blocked) ) &&/k Prt he GRUB ES 


(*p) ->state-=TASK_INTERRUPTIBLE) /检查 进程 是 否 为 可 
中 断 等 行 状态 


(*p) ->state=TASK_RUNNING; /如 果 条 件 同时 符合 ， 就 将 进 
fei Baa 


之 后 ， 第 裔 历 所 有 进程 ， 当 前 只 有 shell 
进程 是 束 绪 态 ， 于 是 切换 到 shell 进 程 去 执行 ， 执 
行 代码 如 下 : 


// 代 码 路 人 径 : kernel/sched.c: 


void schedule (void) 


ee 


next=0; 

i=NR_TASKS; 

p=&task[NR_TASKS]; 

while (--i) { 

if (! *--p) 

continue; 

if ( (*p) ->state==TASK_RUNNING& & (*p) ->counter>c) 
= (*p) ->counter,next=i; 

} 

if (c) break; 


for (p=&LAST_TASK; p>&FIRST_TASK; --p) 


(*p) ->counter= ( (*p) ->counter> >1) + 
(*p) -> priority; 

} 

switch to (next) ; /切换 到 shell 进 程 去 执行 


} 


3.shell 进 程 执 行 ， 为 于 进程 退出 做 最 后 的 处 
理 


shell 进 程 开 始 执行 后 ， 调 用 wait O EEA 
子 进程 退出 做 处 理 ， 包 括 将 子 进 程 task_struct 所 占 
用 的 页 面 释放 抒 等 ， 如 图 8-31 所 示 。 


0x9FFFF OxFFFFF Ox3FFFFF 0xSFFFFF OxFFFFFF 


i psi 


用 户 进程 task_struct 所 
进程 状态 占用 的 页 面 被 释放 


| ass 
图 8-31 ， shell 进程 处 理 用 户 进 程 退 出 后 的 六 
工作 


执行 代码 如 下 : 


// 代 码 路 径 : kernel/exit.c: 


int sys_waitpid (pid_t pid,unsigned long * stat_addr,int options) 


repeat: 
switch ( (*p) ->state) { 


case TASK STOPPED: 


if (! (options& WUNTRACED) ) 
continue; 
put _fs long (Ox7f,stat_addr) ; 


return (*p) -> pid; 


case TASK_ZOMBIE: /检测 到 子 进 程 为 僵 死 状态 ， 将 做 如 下 处 理 
current- > cutime+= (*p) -> utime:; 
current- > cstime+= (*p) ->stime; 
flag= (*p) ->pid; 

code= (*p) ->exit_code; 

release (*p) ; 

put _fs_long (code,stat_addr) ; 
return flag; 

default: 

flag=1; 

continue; 

} 


if (flag) { 


if (options& WNOHANG) 

return 0; 

current- > state=TASK_INTERRUPTIBLE; 
schedule () ; 


if (! (current->signal&=~ (1<< (SIGCHLD-1) ) ) ) /得 
知 接收 到 的 信号 为 子 进程 退出 信和 号 


goto repeat; 
else 
return-EINTR; 


} 
return-ECHILD; 


} 


4.shell 进 程 再 次 被 挂 起 


之 后 shell 进 程 继 续 执 行 ， 从 tty0 这 个 终端 设备 
文件 上 该 取 数 据 。 我 们 假设 此 时 用 户 并 没有 通过 


键盘 输入 任何 信息 ， 这 样 shellj 进 程 什 么 数据 都 没 
有 读 到 ， 于 是 shellj 进 程 将 被 设置 为 可 中 断 等 待 状 
A, SRP MARAE, OA8-32FTAK ° 
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图 8-32 shell 进 程 再 次 进入 可 中 断 等 竺 状态 


由 此 可 见 ， 对 处 于 可 中 断 等 每 状态 的 进程 而 
， 给 它 发 信号 ，schedule () 函数 执行 时 会 检测 
到 它 接收 的 信和 号 和 它 的 状态 ， 并 将 其 改 设 为 下 绪 
仿 ， 以 此 唤醒 该 进程 。 


ll 


下 面 介 绍 进程 的 不 可 中 断 等 待 状态 。 我 们 假 
设 现 在 系统 中 有 三 个 用 户 进 程 ， 分 别 是 进程 A 、 
进程 B 和 进程 C， 它 们 现在 都 处 于 束 绪 仿 ， 其 中 进 
程 B 是 进程 A 的 子 进程 ， 进 程 A 正 在 运行 。 我 们 以 
此 情景 为 例 来 介绍 信号 对 进程 执行 状态 的 影响 。 


进程 A 和 进程 B 案 例 程序 如 下 : 


main () 

{ 

char buffer[12000]; 

int pid,i; 

int fd=open ("/mnt/user/hello.txt", O_RDWR, 0644) ) ; 
read (fd,buffer,sizeof (buffer) ) ; V/ 读 文件 


if (! (pid=fork () ) ) { 


exit O ; /进程 B 〈 子 进程 ) 的 代码 


} 


if (pid>0) 

while (pid! =wait (&i) ) /等 待 子 进程 退出 
close (fd) ; 

return; 


} 


进程 C 案 例 程 序 如 下 : 


main () 

{ 

int ij; 

for (i=0; i< 1000000; i++) 
for (i=0; i< 1000000; i++) 


} 


1EAN T SEIE a FEE 


进程 A 需要 读 人 硬盘 ， 于 是 调用 read () ar" 
生 软 中 断 ， 并 最 终 映射 到 sys_read () ALAR 
行 。 经 过 一 系列 函数 调用 后 ， 发 送 读 盘 命 售 ， 返 
回 后 ， 进 程 A 被 设置 为 不 可 中 断 等 竺 状态 。 这 十 
因为 进程 A 下 一 步 的 执行 需要 此 次 读 盘 的 数据 来 
文 行 ， 在 数据 被 读 出 之 前 ， 这 个 进程 无 论 收 到 什 
么 信号 ， 都 不 能 被 唤醒 。 如 宋 补 唤醒 了 ， 它 将 操 
作 缓 冲 区 里 面 的 数据 ， 而 此 时 缓冲 区 中 的 数据 并 
没有 从 人 硬盘 读 出 ， 这 将 引起 数据 襄 乱 。 这 个 过 程 
如 图 8-33 所 示 。 
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图 8-33 进程 A 挂 起 


进程 A 执行 并 最 终 挂 起 对 应 的 代码 如 下 : 


// 代 码 路 径 : fs/buffer.c: 


struct buffer head * bread (int dev,int block) 


if (bh->b_uptodate) 


return bh; 


ll_rw_block (READ,bh) ; 


wait _on_buffer (bh) ; /检测 是 否 需 要 等 到 缓冲 块 解锁 
if (bh->b_uptodate) 
return bh; 


ee ee 


static inline void wait_on_buffer (struct buffer_head * bh) 
{ 

Elis.) 

while (bh->b_lock) /缓冲 块 确实 加 锁 了 

sleep _on (&bh->b_wait) ; /只 好 将 进程 A 挂 起 

sti () ; 

} 

/代码 路 径 : kernel/sched.c: 


void sleep_on (struct task_struct ** p) 


ee ee 


tmp=*p; 
*p=current; 


current- > state=TASK._ UNINTERRUPTIBLE; /将 进程 A 设 置 为 不 
可 中 断 等 竺 状态 


schedule () ; 
if (tmp) 
tmp- > state=0; 


} 


进程 A 切 换 到 进程 B 执 行 


之 后 也 要 调用 schedule () a, MARIA 
到 其 他 进程 执行 。 我 们 假设 切换 到 进程 A 的 子 进 
程 ， 即 进程 B 去 执行 。 进 程 B 执 行 后 ， 准 备 进出 ， 
于 古 进 程 B 被 设置 为 僵 死 状态 ， 之 后 给 进程 A 发 信 
号 ， 通 知 进 程 A 目 己 将 要 退出 了 ， 最 后 调用 


schedule () 函数 ， 准 备 进 程 切 换 ， 如 图 8-34 所 


小。 
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给 进程 A 发 送信 号 


Al 8-34 进程 B 退 出 并 给 进程 A 发 信和 与 


执行 代码 如 下 : 


/代码 路 径 : kernel/exit.c: 
int do_exit (long code) /进程 B 退 出 


{ 


ee ee 


if (current- > leader) 

kill session () ; 

current- > state=TASK_ZOMBIE; 

current- > exit_code=code; 

tell_father (current-> father) ; /给 父 进程 发 信号 
schedule () ; /进程 切换 

return (-1) ; /*just to suppress warnings*/ 

} 

static void tell_father (int pid) 

{ 

int 1; 

if (pid) 

for (i=0; i<NR_TASKS; i++) {/ 寻 找 父 进程 ， 即 进程 A 
if (! task[i]) 

continue; 


if (task[i]->pid! =pid) 


continue; 


task[i]->signal|= (1<< (SIGCHLD-1) ) ; // 给 进程 A 发 送 " 子 进 
程 退出 "信和 号 


return; 


ee ee 


3. 进 程 A 虽 收 到 信和 号， 但 无 法 唤醒 


进入 schedule () 函数 后 ， 第 一 次 遇 历 所 有 进 
程 。 此 时 进程 A 虽 然 接 收 到 了 信号 ， 但 由 于 它 是 
不 可 中 断 等 待 状态 ， 所 以 并 不 会 将 它 改 设 为 束 绪 
人 态 ， 于 是 此 次 只 能 切换 到 进程 C 去 执行 ， 如 图 8-35 
mas 
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Al 8-35 进程 A 为 不 可 中 断 等 竺 状态， 无 法 用 信 
ARE 


执行 代码 如 下 : 


/代码 路 径 : kernel/sched.c: 


void schedule (void) 


for (p=&LAST_TASK; p>&FIRST_TASK; --p) 


if (*p) { 

if ( Œp) ->alarm&& (*p) ->alarm<jiffies) { 
(*p) ->signall= (1<< (SIGALRM-1) ) ; 
(*p) ->alarm=0; 

} 


if ( ( (*p) ->signal&~ (_BLOCKABLE& (*p) -> 
blocked) ) 必 尺 1/ 检查 到 进程 A 确实 接收 到 信号 


(*p) ->state==TASK_INTERRUPTIBLE) /进程 A 状 态 为 不 可 中 


ee ee 


4. 由 于 外 设 数 据 谈 取 完 成 ， 进 程 A 科 唤醒 


进程 C 执 行 了 一 段 时 间 后 ， 进 程 A 指 定 的 数据 
已 经 从 硬盘 上 读 出 ， 于 是 硬盘 中 断 服务 程序 会 将 


进程 A 强行 设置 为 就 绪 态 (这 也 是 将 处 于 不 可 中 
寺 状态 的 进程 改 设 为 束 绪 态 的 唯一 方法 )， 
如 图 8-36 所 示 ， 执 行 代码 如 下 : 


/代码 路 径 : kernel/blk_dev/blk.h: 

extern inline void end_request (int uptodate) 

{ 

DEVICE _OFF (CURRENT->dev) ; 

if (CURRENT->bh) { 

CURRENT- > bh- > b_uptodate=uptodate; 

unlock _buffer (CURRENT->bh) ; /缓冲 块 解 锁 
} 

if (! uptodate) { 

printk (DEVICE_NAME"I/O error\n\r") ; 

printk ("dev%04x,block%d\n\r", CURRENT-> dev, 


CURRENT- >bh->b_blocknr) : 


ee ee 


extern inline void unlock_buffer (struct buffer_head * bh) 

{ 

if (! bh->b_lock) 

printk (DEVICE_NAME": free buffer being unlocked\n") ; 
bh- > b_lock=0; 


wake up (S&bh->b_wait) ; JESIS RIRE, A 
唤醒 进程 A 


} 


这 样 进程 A 束 具备 执行 能 力 ， 但 这 并 不 等 于 
进程 A 马 上 束 执 行 。 硬 盘 中 断 服 务 程 序 返 回 后 ， 
仍然 是 进程 C 继 续 执 行 ， 如 网 8-36 所 示 。 
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Al 8-36 进程 A 被 唤醒 
5. 切 换 到 进程 A 执 行 并 处 理 信和 号 


进程 C 的 时 间 户 用 完了 ， 又 要 进行 进程 切 
换 。 这 里 进入 schedule () 函数 后 ， 发 现 只 有 进程 
A 是 丈 绪 候 ， 于 是 切换 到 进程 A 去 执行 。 进 程 A 开 
始 执行 后 ， 移 要 对 刚才 从 硬盘 上 读 出 来 鸭 数据 进 
行 处 理 ， 至 此 ，sys_read () KAHTE ° E 
时 ， 软 中 断 准 备 返 回 ， 在 返回 之 前 ， 先 要 检查 一 


下 进程 A 是 否 有 接收 到 任何 信号 。 果 然 ， 检 查 到 
进程 A 接 收 到 了 信号 ， 于 是 将 处 理 该 信号 的 服务 
程序 入 口 地 址 进行 处 理 ， 以 便于 一 旦 此 次 软 中 断 
返回 ， 就 由 信号 处 理 程序 处 理 该 信号 (现在 的 情 
况 是 ， 要 将 进程 B 退 出 的 善后 事务 彻底 处 理 

完 ) ， 这 个 过 程 如 图 8-37 所 示 。 
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所 占用 的 页 面 被 生 放 
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Al 8-37 进程 A 执行 并 处 理 信和 号 


由 此 可 见 ， 对 处 于 不 可 中 断 等 待 状态 的 进程 
而 言 ， 除 直接 将 其 设置 为 吏 绪 信之 外 ， 没 有 任何 
IME ETA AS BUA AS, ERE Ss eB 


没 意 义 。 


8.3 ”本 章 小 结 


进程 间 通 信 本 应 是 操作 系统 比较 难以 掌握 的 
内 容 ， 但 Linux 0.11 的 进程 间 通 信 设 计 的 比较 简 
单 。 俗 话说 ， 厅 涛 虽 小 ,五 脏 俱全 。 读 者 可 以 依 
托 这 个 虽然 简单 却 可 实际 运行 鸭 进 程 间 通 信 模 
型 ， 进 一 步 深 入 理解 高 版 本 的 进程 间 通 信 问 题 。 


言 号 是 操作 系统 中 很 重要 的 概念 。 本 章 详细 
讲解 了 信号 机 制 ， 并 提出 了 信号 是 仿 软 中 断 的 理 
解 。 


第 9 革 ”操作 系统 的 设计 指导 思想 

AR Sy Sete) See, Bese 
Ha o 
一 一 《诗经 小 雅 》 

前 8 草 详细 分 析 和 讲解 了 Linux 操 作 系 统 的 运 
行 原 理 与 工作 机 制 。 本 章 将 答 试 从 设计 者 的 视角 
探讨 操作 系统 的 设计 指导 思想 。 

9.1 运行 一 个 最 人 答 单 的 程序 ， 看 操作 
系统 为 程序 运行 做 了 哪些 工作 


透彻 理解 操作 系统 的 好 方法 之 一 驶 是 丕 看 当 
一 个 最 商 单 的 程序 在 计算 机 上 运行 时 ， 操 作 系 统 


都 做 了 些 什 么 。 


我 们 以 一 个 C 语 言 版 的 “hello world” A fi: 


#include < stdio.h > 

void main () 

{ 

printf ("hello world\n") ; 


} 
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行文 件 。 我 们 在 Linux 操 作 系 统 上 运行 这 个 程序 ， 
最 终 会 在 屏幕 上 输出 “hello world”。 表 面 上 看 ， 在 
屏幕 上 显示 的 “hello world” 都 是 我 们 写 的 程序 的 功 
放 ， 其 实 我 们 写 的 程序 只 起 到 了 很 小 的 作用 。 很 
明显 的 是 ， 这 个 程序 里 使 用 了 C 语 言 的 库 函 数 


printf。 因 为 本 书 的 主题 是 操作 系统 ， 所 以 我 们 午 
不 讨论 库 函 效 。 


我 们 粗略 地 浏览 一 下 Linux 0.11 为 hello 程 序 的 
运行 都 做 了 些 什么 。 下 面 的 小 字 是 对 操作 系统 所 
做 的 工作 的 概要 搞 述 ， 涉 及 操作 系统 的 代码 在 1 万 
行 以 上 ， 除 进程 间 通 信之 外 ， 几 平 涉及 操作 系统 
的 方方面面 。 我 们 写 这 些 文学 的 目的 ， 是 想 让 读 
者 对 运行 一 个 最 简单 的 程序 ， 操 作 系 统 都 做 了 哪 
些 工 作 有 一 个 直观 的 了 解 。 


案例 描述 :硬盘 上 有 一 个 名 叫 hello 的 可 执行 
文件 ， 该 文件 的 源 程序 如 前 。 


现在 系统 已 经 处 于 盒 速 状态 了 ， 用 户 准 备 通 
过 键入 一 条 指令 ./hello， 使 硬盘 上 该 文件 中 的 程序 


加 载 并 执行 ， 最 终 将 hello world 这 个 字符 时 显示 
出 来 。 


BH. 用户 输 入 命令 ，shell 进 程 被 唤醒 ， 


第 
对 命令 进行 解析 。 


为 实现 这 一 步 ， 系 统 将 至 少 进 行 如 下 准备 工 


(1) 用 户 敲 击 键盘 后 ， 键 入 的 信息 记录 在 终 
端 设备 文件 (tty0) 上 


如 和 系统 要 以 文件 的 形式 对 终 山 设备 进行 可 
作 ， 下 先 雪 构建 一 整 父 文件 系统 ， 之 后 加 载 该 广 
件 系 统 ， 以 便 在 此 基础 上 对 文件 进行 操作 。 这 和 套 
NFR LTE DR” ` SERME > “GT AM 
图 ”、“ 文 件 i 太 护 ”、“ 数 据 块 "等 。 其 次 ， 还 要 根据 


文件 的 不 同 功 能 对 数据 进行 分 类 ， 包 括 普通 文 
件 、 设 备 文件 、 目 杂文 件 等 。tty0 殊 属于 设备 文 
件 。 有 了 这 些 准备 才 有 可 能 对 终 闹 设备 文件 tty0 进 
行 操作 。 

(2) mobile, Der Sea PaaS. 
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百 和 匈 ， 这 个 中 断 信和 号 会 通过 可 编程 中 断 探 制 
器 8259A， 所 以 要 对 8259A 这 个 中 断 控制 器 进行 设 
置 ; 然后 ， 信 和 号 会 被 传达 给 CPU,CPU 要 通过 中 断 
摘 述 符 表 寄存 器 (IDTR) 找到 内 存 中 的 中 断 描 述 
FR, PELER R FT ea lef Pe EC Bl BE AS Ha Ah 
理 程 序 ， 并 执行 该 程序 。 要 实现 这 些 棵 作 ， 束 要 
构建 一 整套 中 断 服 务 体 系 ， 有 其 中 包括 对 中 断 描述 
符 表 寄存 器 (IDTR) 进行 设置 和 建立 一 个 中 断 描 


述 符 表 ， 用 以 和 中 断 服 务 程 序 相 挂 拨 ， 然 后 还 要 
编写 中 断 服务 程序 ， 以 便 能 够 为 具体 的 中 断 服 

务 。 此 外 ， 还 要 将 这 些 中 断 服 务 程 序 与 中 断 搞 述 
从 表 相 挂 授 。 


(3) 中 断 服 务 程序 开始 执行 后 ， 唤 醒 shell 进 
程 ， 之后， 通过 进程 调度 机 制 ， 由 进程 0 切换 到 
shell 进 程 去 执行 。 


这 需要 系统 建立 一 整套 进程 管理 机 制 。 就 
shell 来 说 ， 要 创建 进程 并 加 载 shell 程 序 ， 这 样 才 
能 构建 人 机 交互 界面 ， 同 时， 还 要 创建 一 个 进程 
0， 并 在 其 他 进程 都 不 处 于 束 绪 仿 时 切换 到 进程 0 
去 执行 ， 而 且 一 旦 有 进程 被 唤醒 ,就 又 立即 切换 
到 该 进程 执行 。 这 个 机 制 要 适用 于 操作 系统 中 的 
所 有 进程 。 既 然 要 文 持 多 进程 执行 ， 丈 还 要 设计 


一 到 进 程 轮 询 机 制 ， 即 产生 时 钟 中 断 ， 导 公 进 程 
切换 。 这 个 机 制 里 面 又 有 很 多 的 问题 需要 考虑 ， 
比如 时 钟 中 断 服务 程序 的 设计 和 8253 定 时 器 的 设 


置 ， 等 等 。 


(4) shell 进 程 通过 执行 自己 的 程序 从 tty0 这 
个 终端 设备 文件 上 读 取 用 户 键入 的 指令 信息 ， 然 
后 解析 该 指令 ， 并 准备 进行 相应 的 处 理 。 当 然 ， 
这 条 指令 不 是 敲 击 一 次 键盘 就 能 输入 的 。 每 次 项 
击 键盘 ， 都 会 重复 上 述 动 作 ， 然 后 shell 进 程 再 次 
睡眠 ， 并 等 待 下 一 次 键盘 中 断 的 产生 。 


到 这 里 为 止 ， 系统 仅仅 古 对 用 户 键入 的 命令 
进行 啊 应 ， 正 式 的 处 理 还 没有 开始 。 以 上 介绍 的 
这 些 准备 工作 ， 都 只 是 针对 具体 的 步 又 进行 了 最 

简单 的 介绍 。 这 些 准 备 工 作 的 至 后 ， 义 有 看 更 多 


的 准备 工作 。 严 格 来 讲 ， 本 书 第 1、2、3、4 章 中 
所 介绍 的 准备 工作 ， 几 乎 都 要 派 上 用 场 ， 才 能 执 


行 这 第 一 步 。 


第 二 步 : shell 程 序 解析 出 用 户 命令 后 ， 调 用 
fork 函 数 创 建 一 个 用 户 进 程 ， 以 便 对 hello world3< 
件 的 程序 进行 控制 。 


系统 在 这 里 至 少 要 为 用 户 进 程 创建 一 玛 进 程 
官 理 绪 构 。 每 父 进程 都 要 有 一 和 父 这 样 的 结构 ， 以 
便 挥 制 将 来 加 载 的 程序 。 这 到 结 构 十 分 复杂 ， 包 
括 时 间 厂 、 优 先 级 、 进 程 状态 、 进 程 对 应 的 文 
件 、 进 程 的 任务 状态 描述 符 表 〈TSS) ， 以 及 进 
程 的 局 部 数据 描述 符 表 (LDT) ， 等 等 。 其 中 的 
每 一 项 义 与 系统 的 运行 有 看 干 丝 万 绪 的 关系。 比 
如 说 TSS， 它 里 面 存放 看 当前 进程 运行 时 所 有 寄 


存 名 中 的 数据 ， 一 旦 发 生 进程 切换 ， 系 统 就 将 当 
前 各 个 寄存 右 中 的 数据 存储 在 TSS 中 ， 同 时 用 即 
将 切换 到 的 进程 中 的 TSS 中 的 数据 来 设置 各 个 寄 
存 帮 中 的 值 ， 最 后 再 切换 。 可 见 ， 这 个 TSS 中 的 
数据 十 进程 切换 的 根本 祭 障 。 再 比如 LDT， 它 里 
面 存放 着 当前 进程 的 代码 段 挡 述 符 和 数据 段 朱 述 
符 ， 这 两 个 摘 述 符 都 直接 控制 春 进程 所 控制 的 程 
序 ， 而 进程 运行 的 根本 目的 束 是 执行 用 户 的 程 
序 。 


另外 ， 每 个 进程 都 会 有 TSS 和 LDT， 为 了 便 
于 管理 ， 还 需要 再 设计 一 套数 据 结构 ， 怠 是 全 局 
描述 符 表 (GDT) 。 所 有 进程 的 TSS 和 LDT 的 索 
引 都 存放 在 这 个 GDT 中 。 系统 为 了 方便 操作 
GDT， 并 进一步 操作 LDT 和 TSS， 还 要 对 CPU 中 
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但 仅 有 这 些 ， 还 是 远 远 不 够 的 。 系 统 局 动 之 
初 定 实 模式 ， 各 个 段 寄 存 吉 中 都 是 实际 的 地 址 
值 ， 直 人 到 进入 保 扩 模 式 ， 上 段 寄 存 帮 中 的 数值 才 变 
成 了 段 选 择 符 ， 这 样 GDT 才 能 参与 应 用 ， 所 以 系 
统 还 要 为 实 模式 到 你 护 模式 的 转换 伏 全 方位 的 准 
备 工 作 。 


以 上 这 些 只 是 针对 TSS 和 LDT 进 行 的 展开 分 
析 。 进 程 管理 结构 中 其 他 成 员 与 系统 之 间 同 样 有 
看 某 密 的 天 系 。 例 如 ， 进 程 调度 的 最 基本 方式 驶 
侠 通 过 时 间 片 轮转， 而 时 间 瞩 轮转 的 最 重要 的 参 
考 数据 承 是 当前 进程 的 时 间 片 。 再 例如 ， 只 有 进 


程 才能 够 操作 文件 ， 所 以 进程 吏 要 与 文件 全 面 建 
WRA, PTE CARAT > OCP Ee Pe 
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创建 进程 ， 束 必须 创建 进程 管理 结构 ， 而 进 
程 管 理 结构 中 的 成 员 一 个 都 不 能 少 ， 痢 要 创建 并 
设置 。 除 了 进程 官 理 结构 ， 创 建 进程 的 时 候 ， 还 
要 为 新 进程 复制 页 表 和 创建 页 目 隶 项。 这 些 都 与 
内 存 页 面 的 应 用 有 直接 关系 ， 而 内 存 的 应 用 策略 
义 是 整个 操作 系统 中 最 复 洒 的 应 用 策略 之 一 。 


第 三 步 : 新 进程 创建 完毕 后 ， 加 载 hello 
world 文 件 对 应 的 程序 。 

要 完成 这 一 步 ， 进 程 就 要 在 两 方面 进行 全 廊 
位 的 准备 : 一 方面 是 文件 ， 另 一 方面 是 内 存 。 


hello world 程 序 一 定 是 以 可 执行 文件 的 方式 存储 
在 便 盘 上 上 的， 所以， 在 文件 加 载 之 前 一 定 要 检测 
文件 是 否 可 用 ， 主 要 表现 在 对 文件 i 市 点 的 检测 和 
对 文件 头 的 检测 两 方面 。i 扣 是 文件 的 管理 信 
The RR RIT, MEAD ANE 
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KM ` RFT 点 表 等 ， 一 件 事情 都 不 能 少 做 。 文 
件 头 存储 在 数据 块 中 ， 要 操作 数据 块 义 离 不 开罗 
辑 块 位 独 的 文 择 ， 这 样 一 来 ， 整 个 文件 系统 中 涉 
及 的 全 部 内 容 剖 要 用 人 到了。 


具备 了 载 入 文件 的 条 件 后 ， 束 要 将 hello 
world 文 件 载 入 内 存 中 了 。 这 样 系统 吏 要 解决 所 有 
与 内 存 相关 的 问题 ， 包 括 要 与 原来 进程 共 圣 的 页 
面 解除 天 系 ， 这 束 涉 及 页 面 引用 计数 、 页 面 三 级 


管理 机 制 (页 目录 表 、 页 表 、 页 面 ) 、 页 面 数 据 
(只 读 / 可 读 可 写 ) 等 一 系列 问题 ， 系 统 就 要 为 此 
建立 页 写 傈 护 等 机 制 来 解决 这 些 问题 。 


但 仪 仅 解决 这 些 问 题 还 远 远 不 够 ,程序 的 加 
Bite RIA, AP eR P 
断 机 制 ， 即 必须 根据 需要 来 分 析 是 不 是 需要 申请 
新 的 页 面 来 加 载 程 序 的 内 容 。 为 此 又 要 对 许多 数 
据 进 行 判断 ， 这 样 才 能 确定 加 载 的 必要 性 ， 比 如 
线性 地 址 所 对 应 的 物理 地 址 是 否 被 映射 到 了 线性 
地 址 空间 内 等 ， 这 整 需 要 一 套 物 理 地 址 到 线性 地 
址 的 映射 方案 。 克 外 ， 缺 页 中 断 宙 制 的 设计 也 很 
有 讲究 ， 缺 页 并 不 等 于 一 定 要 把 外 设 的 程序 加 载 
进来 。 比 如 ， 由 压 栈 导致 的 缺 页 同样 要 申请 新 的 
页 面 来 载 入 数据 ， 但 这 与 外 设 一 点 关系 部 没有 。 


文 些 都 是 缺 页 中 断 机 制 设 计时 需要 全 面 考虑 的 问 


ta 
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JAZ, hello world 程 序 的 加 载 ， 几 乎 涉及 文 
件 管理 与 内 存 管理 的 各 方面 。 而 且 ， 以 上 所 述 还 
仅仅 是 针对 hello world 这 一 个 进程 加 载 所 进行 的 
最 基本 的 介绍 。Linux 是 要 支持 多 进程 执行 的 ， 
个 进程 都 有 可 能 加 载 自己 的 程序 ， 而 文件 和 内 存 
又 是 所 有 进程 可 以 共用 的 资源 ， 它 们 之 间 还 存在 
着 更 为 复杂 的 管理 关系 。 比 如 ， 两 个 进程 加 载 同 
一 个 hello world 文 件 时 ， 涉 及 要 不 要 共 圣 ， 如 何 
共享 ， 共 享 后 页 面 的 引用 计数 如 何 计算 ， 读 写 属 
性 如 何 确定 ， 等 等 。 


第 四 步 : hello world 程 序 开始 执行 ， 将 “hello 
world” 字 从 串 显 示 在 屏幕 上 。 


hello world 程 序 加 载 进 内 存 后 束 要 开始 执行 
了 。 这 个 程序 比较 和 商 单 ， 束 是 将 hello world 这 个 
字符 串 显 示 到 屏 医 上。 但 和 是， 即便 如 此 ， 系 统 
要 为 此 做 很 多 的 工作 。 其 中 最 主要 的 束 古 关于 显 
示 方 面 的 工作 ， 比 如 ， 显 卡 属性 如 何 确定 ， 显 卡 
eR Ger; 显存 位 置 如 何 确定 ， 显 示 在 屏 
ee FALE UIE; WORE es, Be 
不 要 滚动 显示 ， 如 何 滚 动 显 示 ， 等 等 。 这 些 问 题 
都 要 操作 系统 来 做 ， 而 且 和 直接 与 显示 屁 的 接 层 交 
Go 


从 以 上 这 些小 字 中 ， 我 们 不 难看 出 ， 即 使 征 
运行 一 个 最 简单 的 程序 ， 操 作 系 统 也 要 做 非常 多 
的 工作 。 我 们 反 辐 思考 一 下 ， 似 乎 也 可 以 得 出 下 
面 的 结论 : WRAPPERS, Bl ete bee 


显示 一 行 “hello world”， 我 们 都 要 写 大 量 复杂 的 、 
具有 操作 系统 所 有 具备 的 功能 的 程序 。 毫 不 伪 张 地 
说 ， 没 有 操作 系统 ， 我 们 甚至 无 法 把 程序 加 载 到 
计算 机 中 ， 更 谈 不 上 得 到 运行 结果 了 。 


那么 ， 操 作 系 统 究 苋 为 应 用 程序 的 运行 都 做 
TETA? 


IRRD, BAVA, BRE RSE — 
DER eb ARE WS The Bee A e+ 
IRAT ENSINA, KEMIRA 
为 应 用 程序 的 运行 提供 了 对 外 设 的 文 持 。 如 采 操 
作 系 统 不 写 这 些 文 持 程序 ， 应 用 程序 束 必 须 写 这 
些 程序 ， 而 且 所 有 应 用 程序 都 要 写 的 这 部 分 程序 
的 内 容 也 部 大 不 多 。 所 以 ， 我 们 也 可 以 把 操作 系 
统 看 成 所 有 应 用 程序 共有 的 部 分 。 


像 Linux 这 样 的 现代 操作 系统 ， 不 仅 为 应 用 程 
序 提 供 了 对 外 设 的 文 持 ， 还 文 持 多 个 程序 同时 运 
行 。 这 束 要 求 操作 系统 不 但 要 支持 外 设 ， 还 必须 
对 运行 的 多 个 程序 进行 有 效 的 组 织 、 管 理 和 协 
调 ， 防 止 某 个 程序 独占 CPU、 内 存 、 外 设 等 俯 
源 ， 使 得 其 他 程序 无 法 正常 运行 。 此 外 ， 还 要 防 
止 正在 运行 的 程序 之 间 相互 读 写 和 相互 窗 盖 ， 确 
保 所 有 程序 正确 运行 。 最 关键 的 是 ， 操 作 系 统 不 
能 被 应 用 程序 直接 读 写 ， 更 不 能 被 应 用 程序 履 


=e o 


9.2 ”操作 系统 的 设计 指导 思想 =o 


双 机 制 


以 上 这 些 看 似 合情合理 的 要 求 背后 似乎 隐藏 
着 这 样 一 个 问题 : 应 用 程序 是 程序 ， 操 作 系统 也 
是 程序 ， 操 作 系统 程序 赁 什么 能 对 应 用 程序 进行 
组 织 、 管 理 和 协调 而 不 受 应 用 程序 损害 呢 ? 


我 们 认为 插 的 生 特 权 机 制 。 要 想 让 操作 系统 
侈 到 能 够 对 应 用 程序 进行 组 织 、 管 理 和 协调 ， 同 
时 又 不 受到 损害 ， 最 有 效 的 方法 吏 是 使 操作 系统 
与 应 用 程序 之 间 、 应 用 程序 与 应 用 程序 之 间 进 行 
有 效 的 分 离 ， 同 时 要 做 到 操作 系统 能 随意 访问 应 
用 程序 ， 而 应 用 程序 不 能 访问 操作 系统 ， 应 用 程 
序 之 间 也 不 能 互相 访问 。 


KA, EFAS MEE, MRE 
要 让 茶 个 应 用 程序 在 内 存 中 的 什么 位 置 运行 ， 该 
应 用 程序 就 得 老 老 实 实地 在 那里 运行 ， 操 作 系 统 
应 在 内 存 中 为 应 用 程序 划 出 清晰 的 边界 ， 应 用 程 
序 不 能 越 雷池 半 步 。 操 作 系 统 人 允许 应 用 程序 占用 
CPU 运行 多 长 时 间 ， 应 用 程序 只 能 运行 多 长 时 
间 ， 运 行 完 这 点 时 间 后 ， 还 得 将 CPU 的 使 用 权 规 
规 窍 窍 交 还 给 操作 系统 ， 没 有 权利 私 目 扣留 CPU 
的 使 用 权 。 如 末 某 个 应 用 程序 要 想 使 用 外 设 ， 不 
能 直接 癌 外 设 伸 手 ， 得 同 操 作 系 统 请 示 和 申请 。 
如 果 操 作 系 统 认为 可 以 让 这 个 应 用 程序 使 用 外 
设 ， 束 让 它 使 用 ， 如 来 操作 系统 认为 不 应 该 让 这 
个 应 用 程序 使 用 外 设 ， 束 不 让 它 使 用 .….…… 


在 这 样 的 特权 机 制 下 ， 损 作 系统 和 应 用 程序 
的 天 系 吏 成 了 主 于 和 奴才 的 天 系 。 力 了 便于 记 
忆 ， 我 们 把 这 种 特权 机 制 称 为 主 妈 机制。 


9.2.1 主 妈 机 制 中 的 进程 及 进程 创建 机 制 


1. 程 序 边 界 与 进程 


为 了 实现 主 妈 机 制 ， 首 先 要 在 操作 系统 内 核 
程序 与 应 用 程序 之 间 、 应 用 程序 与 应 用 程序 之 间 
建立 有 效 的 边界 。 


现实 生活 中 的 物体 ， 大 部 分 种 类 都 征 有 目 然 
边界 的 。 比 如 我 们 周围 的 房子 、 昌 木 板 苔 都 有 天 
AAA; 我 们 目 生 有 皮肤 ， 这 十 我 们 的 天 然 边 
界 。 这 些 天 然 的 边界 可 以 有 效 地 防止 人 与 人 之 
间 、 物 与 物 之 间 、 人 与 物 之 间 的 融合 ， 以 保持 独 


立 、 完 整 的 形体 ， 同 时 你 持 了 独立 的 、 完 整 的 特 
性 。 现 实生 活 中 也 有 一 些 物质 没有 天 然 的 、 确 害 
的 边界 ， 比 如 气体 和 液体 等 。 不 同 的 气体 之 间 因 
为 没有 边界 ， 很 容易 相互 融合 ， 不 分 你 我 。 我 们 
想 妥 盛 水 ， 最 有 将 的 方法 吏 是 用 杯子 或 瓶子 之 尖 
HSH ae ° 


程序 代码 在 计算 机 中 的 情况 与 气体 和 补体 的 
情况 类 似 ， 也 没有 天 然 的 、 确 定 的 边界 ， 这 束 需 
要 操作 系统 人 为 确定 边界 ， 起 到 类 似 于 容 帮 的 分 
离 和 承载 的 作用 。 为 此 ， 现 代 损 作 系 统 的 设计 者 
提出 了 进程 的 概念 ， 用 task_struct 数 据 结构 来 实现 
明确 地 划分 边 弄 的 作用 。task_struct 是 进程 最 主要 
的 标志 。 从 操作 系统 的 角度 看 ， 进 程 束 和 运行 中 
的 接受 操作 系统 组 织 、 管 理 和 协调 的 程序 。 


2. 进 程 创建 


从 技术 上 讲 ， 创 建 进 程 的 方法 不 止 一 种 ， 
Linux 操 作 系 统 的 进程 创建 采用 的 是 对 象 创建 模 
式 。 对 象 创建 融 征用 已 有 的 对 象 创 建 靳 的 对 和 象 ， 
用 已 有 的 进程 创建 新 的 进程 ， 也 融 定 所 谓 的 父子 
进程 创建 机 制 。 从 本 质 上 讲 ， 创 建 进程 最 主要 的 
吏 是 创建 task_struct。 父 子 进 程 创建 的 主要 机 制 吏 
侠 从 父 进程 的 task_struct 复 制 一 份 作为 子 进程 的 


task_struct ° 


从 逻辑 上 很 容易 反 推出 ， 父 于 进程 创建 机 制 
意味 着 最 初 的 父 进 程 必须 独立 存在 ， 这 束 古 进程 
0。 不 难 理解 ， 进 程 0 不 能 由 父子 进程 创建 机 制 创 
建 ， 所 以 只 能 由 操作 系统 设计 兰 手 工 编写 进程 0 的 


task_struct。 有 了 进程 0， 父 子 进 程 创建 机 制 束 可 
以 用 进程 0 作为 父 进程 创建 子 进程 。 
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协调 的 对 象 。 下面 我 们 将 分 析 操 作 系 统 中 的 主 双 
机 制定 如 何 实 现 的 。 


9.2.2 ”操作 系统 的 设计 如 何 体现 主公 机 制 


操作 系统 内 核 与 用 尸 进 程 之 间 的 天 系 应 该 设 
计 为 主公 关系 ， 以 实现 主公 机 制 。 实 现 了 主公 机 
制 ， 控 作 系 统 才能 稳定 地 运行 。 


操作 系统 的 设计 阁 使 用 了 一 整套 设计 方 双 来 
实现 主 妈 机 制 。 下 面 我 们 从 操作 系统 设计 阁 的 角 
BE, 分 三 方面 来 天 析 操作 系统 的 设计 思想 中 古 如 
何 体 现 主 妈 机 制 的 。 第 一 方面 ， 进 程 调 度 体 现 的 
EDULE; BTE, A SEATS DOL 
制 ;， 第 三 方面 ， 文 件 系 统 体现 的 主公 机 制 。 


1. 操 作 系 统 在 进程 调度 中 体现 的 主 双 机 制 


操作 系统 进行 进程 调度 时 ， 对 竺 内核 和 进程 
的 方式 十 蕉 然 不 同 的 ， 准 确 地 说 ， 进 程 调度 殉 定 
内 核 操 作 的 。 当 发 生 时 钟 中 断 时 ， 触 发 调度 程 
序 ， 调 度 程序 判 晰 当前 进程 的 时 间 卢 是否 用 完 ， 
如 东 用 完 ， 马 上 进行 调度 ， 不 论 这 个 进程 的 工作 
生 否 完成 ， 立 即 挂 起 这 个 进程 ， 调 度 其 他 进程 运 
行 。 如 果 是 内 核 ， 调 度 程序 判断 确认 后 束 返 回 ， 
内 核 继续 运行 ， 直 到 工作 完成 为 止 ， 不论 占用 
CPU 的 时 间 有 多 长 ， 都 是 如 此 ， 所 有 的 用 户 进程 
都 要 俘 下 来 ， 一 直 等 待 内 核 运行 结束 。 由 此 可 
见 ， 系 统 简 握 了 “进程 调度 的 权利 ”后 ， 该 权利 只 
针对 它 的 双 才 一 一 进程 ， 而 不 能 针对 主子 本 刁 
一 一 内 核 。 


Linux 操 作 系统 每 次 分 配给 进程 的 运行 时 间 走 
由 大和 干 时 间 厂 组 成 的 ， 分 配 多 少时 间 要 由 内 核 决 
定 ， 内 核 决定 多 少 束 古 多 少 ， 进 程 想 要 增加 时 间 
Fr, VERY RAUL aC © ELITR] Ar FASE, 
CPU 的 使 用 权 束 要 交还 内 核 。 值 得 注意 的 是 ， 这 
个 “交还 ”不 是 通过 协商 或 轮流 “坐庄 ”， 而 是 强行 
收回 ! 如 采 进 程 运 行 结束 ， 吏 算 还 有 和 琵 余 的 时 间 
拨 ， 操 作 系 统 也 会 收回 CPU 的 使 用 权 ， 不 会 等 
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如 朱 不 采用 主 妈 机 制 ， 而 和 是 把 进程 调度 设计 
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统 ， 那 么 ， 进 程 什 么 时 候 上 区 CPU 的 使 用 权 以 及 
侠 人 否 上 交 ， 直 接 取决 于 进程 的 程序 设计 ， 操 作 系 
统 几 乎 无 法 控制 。 更 可 介 的 是 ， 如 采 进 程 是 恶意 


程序 ， 或 者 发 生 异 种 僵 死 ， 操 作 系统 很 可 能 永远 
无 法 回收 CPU 的 使 用 权 ， 会 导致 整个 系统 瘫痪 。 


主 妈 机 制 的 设计 保证 了 应 用 程序 占用 CPU 资 
源 的 情况 最 多 只 影 啊 操 作 系统 分 配给 它 的 那些 时 
间 户 。 这 些 时 间 搬 用 完 后 ， 执 行 权限 目 然 回 归 操 
作 系 统 。 回 归 之 后 ， 操 作 系 统 束 可 以 处 理 进程 ， 
甚至 将 出 错 的 进程 强行 退出 。 


具体 的 技术 细 市 在 第 6 章 已 经 详细 讲解 过 了 。 


2. 操 作 系 统 在 内 存 管理 中 体现 的 主 妈 机 制 


前 面 讲 过 ， 进 程 最 主要 的 标志 束 古 task_struct 
数据 结构 。 在 task_struct 数 据 结构 中 ， 明 确 地 定义 
了 进程 的 边界 ， 任 何 未 经 允许 的 跨越 边界 行为 都 
将 个 制止 。 有 了 清晰 的 边界 ， 束 你 证 了 进程 不 能 


直接 越界 访问 操作 系统 内 核 ， 也 保证 了 进程 间 不 
能 直接 相互 访问 。 这 是 主公 机 制 的 体现 。 


Linux 0.11 的 内 核 和 用 户 进 程 都 采用 了 分 页 机 
制 ， 但 是 采用 的 管理 数据 却 是 两 套 ， 一 套 是 针对 
内 核 使 用 的 ， 分 页 范围 是 0 一 16 MB 的 全 部 内 存 空 
间 ; 另 一 套 是 针对 用 户 进 程 的 ， 分 页 范围 仅 限 于 1 
~16 MB 空间 (1 MB 以 内 的 是 内 核 空 间 ) ， 如 图 
9-1 所 示 。 


从 图 9-1 中 可 以 清楚 地 看 出 ， 只 要 操作 系统 内 
核 代 码 在 内 核 专 用 区 ， 进 程 是 无 论 如 何 也 访问 不 
到 的 ， 而 内 核 的 访问 范围 却 早 括 整个 内 存 空间 。 
我 独占 的 地 方 你 来 不 了 ， 你 的 地 方 我 随便 去 ， 因 
为 你 的 地 方 就 是 我 的 地 方 。 真 是 “普天 之 下 ， 莫 非 
王 土 ”， 其 结果 必然 是 “ 率 土 之 滨 ， 莫 非 王 臣 ” 
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此 外 ， 用 户 进程 只 能 面 对 一 个 逻辑 地 址 ， 不 
能 直接 使 用 物理 地 址 ， 需 要 使 用 内 存 的 时 候 ， 转 
化 为 一 个 线性 地 址 ， 再 根据 第 二 玛 1~~16 MB 的 管 
理 数据 方案 转化 为 实际 物理 地 址 。 内 核 将 整个 内 
存 划 分 为 统一 大 小 的 内 存 块 一 一 页 。 进 程 运行 
时 ， 操 作 系统 给 进程 分 配 页 。 如 采 操 作 系统 给 进 
程 分 配 了 两 个 以 上 的 页 ， 这 些 页 不 一 定 是 相 令 P 
的 ， 而 且 通 弟 古 不 相 令 的。 这些 页 具体 分 配 在 内 


存 的 什么 地 方 ， 进 程 古 不 知道 的 ; 分 了 儿 页 ， 进 
枉 世 不 知道 。 准 确 地 说 ， 进 程 长 全 痢 愿 饥 不 到 分 
页 。 在 进程 看 来 ， 它 使 用 的 古 一 个 连续 的 逻辑 地 
址 内 存 空 间 。 


进程 不 知道 目 己 在 哪儿 ， 更 不 可 能 知道 别 的 
进程 在 哪儿 ， 根 本 不 可 能 进行 进程 间 的 互 访 。 内 
核 代码 肯定 放 在 内 核 专 用 区 里 ， 从 图 9-1 可 以 明显 
地 看 出 位 置 在 进程 的 访问 极限 之 外 ， 所 以 进程 不 
可 能 访问 内 核 。 进 程 存 储 区 在 和 内核 的 访问 范围 之 
内 ， 内 核 怠 可 以 随意 访问 进程 的 内 存 空间 。 这 和 是 
典型 的 主 双 关系 ! 


具体 的 技术 细节 在 第 3 章 和 第 6 章 已 经 详细 讲 
Wot f° 


3. 操 作 系 统 在 文件 系统 中 体现 的 主 妈 机 制 


以 写 文 件 时 申请 磁 僵 空间 为 例 。 当 用 户 需 要 
问 磁 弄 写 文件 时 ， 首 先 需 要 回 内 核 提出 申请 ， 议 
明 目 己 古 哪个 进程 、 目 己 需 要 的 资源 大 小 ， 以 及 
质 源 的 读 写 权限 ;内核 接 到 申请 之 后 ， 会 结合 当 
HU AH oe a A be > STH IX ASE PTR IR Ee 
EMRA EAH PRE TOR o WRA LANTE 
都 在 申请 货源 ， 内 核 会 决定 让 某 一 个 进程 完 获 得 
俯 源 ， 而 让 其 他 进程 处 于 等 每 状态 ， 并 且 要 对 等 
每 队列 的 排序 做 出 定理 ， 以 达到 内 核 认为 的 最 好 
标准 。 如 果 当 前 的 资源 已 经 无 法 满足 要 求 ， 内 核 
还 会 驶 回 进 程 的 申请 。 这 里 也 充分 体现 了 内 核 和 
用 户 进程 的 主 妈 机 制 。 用 户 进 程 鸭 工作 一 旦 涉及 
FB, ÆRA NA EFH RUMAH, mH] 


内 核 “ 近 申请”、“ 打 报告 *。 内 核 掌 控 春 各 种 硬件 
质 源 ， 负 责 对 申请 质 源 的 众多 进程 进行 组 织 、 管 


理 和 协调 。 


具体 的 技术 细 市 在 第 5 草 中 有 详细 的 讲解 。 


9.3 SCEPE DAL BAY = FPR REIN 


上 面 我 们 从 三 方面 详细 分 析 了 主 妈 机 制 的 设 
计 指 导 思 想 在 操作 系统 中 的 体现 。 下 和 面 ， 我 们 将 
讲解 控 作 系统 的 设计 痢 古 菲 什 么 实现 主 双 机 制 
的 。 我 们 认为 ， 主 要 依 知 三 项 关键 技 术 : 你 护 和 
分 页 、 特 权 级 、 中 断 。 这 三 项 扩 术 有 一 个 共同 特 
点 ， 就 是 依托 CPU 提供 的 硬件 机 制 。 


9.3.1 保护 和 分 页 


我 们 在 第 1 章 就 讲 过 ，Linux 0.11 打 开 了 PE 和 
PG， 即 打开 了 保护 模式 和 分 页 机 制 。 打 开 保 护 模 
式 后 ，CPU 的 寻 址 模式 发 生 了 实质 性 的 变化 。 以 
代码 寻 址 为 例 ， 实 模式 时 是 CS: IP， 在 你 护 模 式 


下 IP 变 为 EIP， 更 关键 的 变化 是 CS 由 直接 的 代码 
段 基 址 变 为 代码 段 选择 符 ， 通 过 解析 代码 段 选 择 
符 可 获得 GDT 中 指定 的 代码 段 描述 符 ， 进 一 步 解 
析 才 能 获得 代码 段 的 基 址 。 


APN SCHEIN: 一 个 是 段 限 长 ， 
一 个 是 特权 级 。 


实 模式 下 的 CS 虽然 是 代码 段 的 段 基 址 ， 但 CS 
只 是 负 责 看 管 代 码 段 的 起 始 位 置 ，Intel 上 CPU 没 
有 设计 负责 看 管 代 码 段 结尾 地 址 的 段 尾 寄存 器 
虽然 有 64 kB 的 段 长 ， 但 不 得 不 允许 其 他 段 履 盖 ， 
因为 实际 使 用 中 经 常 出 现代 码 段 远 小 于 64 kB 的 情 
形 ， 为 了 不 浪费 内 存 ， 只 好 允许 履 讲 。 


保护 模式 除了 段 基 址 之 外 ， 还 有 段 限 长 。 这 
样 既 莱 容 了 实 模 式 只 有 一 个 段 寄存 右 的 情况 ， 叉 
相当 于 增加 了 一 个 段 尾 寄存 带 。 这 样 妹 有 效 地 防 
IE TARERE, LE TARAR HAIA 
问 超 限 ， 明 显 增强 了 你 护 作用 。 


对 主 双 机 制 影响 深远 的 是 特权 级 。 


从 第 1 章 开 始 ， 我 们 多 次 提 到 CS 的 最 后 两 位 
束 古 特权 级 。Intel 从 便 件 上 蔡 止 低 特 权 级 的 代码 
段 的 代码 使 用 一 些 天 键 性 的 指令 ， 如 LGDT、 
LLDT、LIR、LIDT。 男 外 ，Intel 还 提供 了 机 会 ， 
允许 操作 系统 的 设计 者 通过 一 些 特权 级 的 设置 ， 
禁止 用 户 进 程 使 用 CLI、STI 等 对 掌控 局 面 至 关 重 
要 的 天 键 性 指令 。 


有 了 这 些 硬件 做 基础 ， 操 作 系 统 束 可 以 把 内 
核 设 计 为 最 高 特权 级 ， 把 用 户 进程 设计 为 最 低 特 
权 级 。 这 样 ， 操 作 系 统 设计 者 就 能 做 到 让 操作 系 
统 内 核 可 以 执行 一 切 指 令 ， 想 做 什么 束 做 什么 。 
操作 系统 可 以 访问 GDT、LDT、TR， 而 GDT >` 
LDT 是 逻辑 地 址 形成 线性 地 址 的 关键， 也 就 是 说 
操作 系统 能 够 掌控 线性 地 址 ， 而 用 户 进程 则 不 
能 。 用 户 进程 只 能 使 用 逻辑 地 址 ， 而 用 户 进 程 的 
逻辑 地 址 要 由 内 核 转 换 为 线性 地 址 。 物 理 地 址 是 
由 内 核 将 线性 地 址 转换 而 成 的 ， 不 知道 线性 地 址 
束 不 知道 物理 地 址 ， 也 就 是 说 ， 操 作 系 统 内 核实 
际 上 可 以 访问 任何 物理 地 址 。 这 样 ， 对 于 用 户 进 
程 来 说 ， 它 只 能 “感觉 ?到 在 访问 一 个 逻辑 地 址 的 
内 存 空间 ， 如 同 访 问 “ 真 实 的 内 存 空间 ”一 样 ， 而 
实际 的 逻辑 地 址 到 物理 地 址 的 映射 要 由 操作 系统 


内 核 来 安排 。 操 作 系 统 把 用 户 进程 需要 访问 的 内 
存 安排 在 内 存 的 什么 地 方 ， 完 全 是 随心 所 欲 ， 而 
用 户 进程 甚至 和 都 不 知道 实际 访问 的 物理 地 址 在 哪 
ye 


Linux 0.11 的 用 户 进程 线性 地 址 空间 的 设计 方 
案 是 ， 把 4 GB 的 线性 地 址 空间 等 分 为 64 份 ， 每 份 
64 MB， 每 个 进程 一 份 ， 每 个 进程 的 逻辑 地 址 空 
间 是 64 MB。 也 残 是 说 ， 在 用 户 进程 看 来 ， 有 64 
MB 的 内 存 可 以 使 用 ， 这 样 64 MBx64=4 GB ° HH 
于 用 户 进 程 能 访问 的 空间 不 可 能 超出 64 MB, 
个 进程 的 线性 地 址 空间 又 没有 任何 交 营 ， 这 样 ， 
从 理论 上 讲 ， 在 线性 地 址 空间 的 层面 ， 任 何 用 户 
进程 之 间 的 直接 相互 寻 址 和 访问 都 是 不 可 能 的 


了 。 用户 进程 之 间 的 相互 访问 都 不 可 能 ， 更 不 可 
能 访问 操作 系统 内 核 了 。 


这 样 ， 保 扩 模 式 给 操作 系统 的 设计 痢 近 供 了 
机 会 ， 使 操作 系统 的 设计 者 有 可 能 做 到 ， 用 户 进 
程 不 能 访问 操作 系统 内 核 ， 也 不 能 相互 访问 ， 而 
操作 系统 内 核实 际 上 能 够 访问 任何 用 户 进 程 。 这 
侠 主 双 机 制 的 一 个 体现 。 


分 页 的 前 提 是 保护 模式 ， 也 驳 是 说 ，PE 和 PG 
必须 同时 打开 ， 不 存在 没有 PE 的 PG。 可 以 说 分 页 
和 保护 是 一 体 的 。 分 页 机 制 同样 依托 CPU 的 硬 
件 ， 在 提高 了 内 存 空间 使 用 效率 的 同时 ， 也 使 操 
作 系 统 的 设计 者 能 够 实现 用 户 进 程 之 间 不 能 
访 ， 更 不 可 能 访问 内 核 ， 而 内 核实 际 上 可 以 任意 
访问 用 户 进程 。 


在 分 页 机 制 下 ， 理 论 上 使 线性 地 址 等 价 于 物 
理 地 址 的 分 页 方法 只 有 一 种 。 下 面 我 们 话 细 讲解 
这 个 方法 的 原理 和 操作 。 


我 们 用 一 个 简单 的 线性 方程 来 表示 线性 地 址 
和 物理 地 址 之 则 的 天 系 。 


y=kx+b 


这 里 x 代表 线性 地 址 ，y 代 表 物 理 地 址 ，k 是 线 
性 地 址 和 物理 地 址 的 比例 关系 。 因 为 线性 地 址 和 
物理 地 址 的 单位 者 是 字 了 ， 如 有 增长 的 方 癌 相 
同 ， 线 性 地 址 和 物理 地 址 的 比例 关系 承 是 1， 也 了 天 


这 样 ， 


y=kx+b 


PLB 


y=xtb 


不 难看 出 ， 只 


b=0 


mL AY PASE 


yx 


也 束 是 物理 地 址 等 于 线性 地 址 。 


操作 系统 内 核 要 想 做 到 在 分 页 机 制 下 实现 线 
性 地 址 等 于 物理 地 址 ， 就 一 定 要 把 操作 系统 内 核 
分 页 的 起 始 位 置 放 在 物理 地 址 的 起 始 位 置 ， 这 是 
关键 | 


回顾 一 下 第 1 章 的 图 1-23 以 及 6.2 节 讲 到 的 内 
和 容 ， 才 能 真正 地 理解 内 核 分 页 从 内 存 的 起 始 位 置 
开始 的 深刻 意义 ， 其 作用 就 是 b=0， 使 线性 地 址 
等 于 物理 地 址 ! 


WAR ORL, BERET BA, RE 
BII CU ve Be PE ek A HE — — x e SS 
内 核 需 要 访问 内 存 的 时 候 ， 束 可 以 直接 访问 物理 
内 存 ， 而 不 是 像 进 程 那 样 ， 被 操作 系统 绕 过 来 、 
GIA, CREA, PACHREVENE 
中 具体 处 于 什么 位 置 部 不 知道 。 


为 了 在 分 页 机 制 的 前 提 下 满足 这 项 要 求 ， 操 
作 系 统 特别 设计 了 一 套 页 表 专 | ] 供 内 核 使 用 。 这 
套 页 表 的 值 刚 好 可 以 使 线性 地 址 的 值 和 物理 地 址 
的 值 恒 等 了 映射， 而 且 这 个 映射 范围 不 是 局 限于 内 
核 的 1 MB 空间 本 里 ， 而 是 包含 所 有 16 MB 的 空 
间 ， 也 就 是 说 ， 内 核实 际 上 可 以 直接 访问 任何 一 
个 进程 的 内 存 空间 。 具 体 方案 的 技术 细 廊 已 经 在 
第 1 章 图 1-39 至 图 1-41 以 及 6.2 节 详细 讲解 过 。 


用 户 进程 只 能 面 对 一 个 逻辑 地 址 ， 需 要 使 用 
内 存 的 时 候 ， 自 先 转 化 为 一 个 线性 地 址 ， 再 根据 
内 核 所 供 的 专门 为 进程 设计 的 分 页 方案 ， 由 MMU 
转化 为 实际 物理 地 址 。 在 这 里 ， 线 性 地 址 和 物理 
地 址 的 转换 与 直接 映 别 截 然 相 反 。 


百 完 ， 用 户 进程 内 存 页 面 的 分 配 是 从 物理 内 
存 的 局 地 址 端 开始 ， 随 奢 程 序 的 执行 疝 物理 内 存 
的 低地 址 闹 发 展 的 ， 可 以 粗略 地 认为 古 与 线性 地 
址 方 同 反问 分 配 页 面 ， 也 可 以 粗略 地 看 成 十 
k=-1， 而 且 b 目 然 不 可 能 为 零 。 操 作 系统 完全 根据 
多 进程 实际 运行 需要 给 进程 临时 分 配 页 面 ， 页 面 
分 配 在 物理 内 存 的 什么 地 方 事先 完 全 无 法 预料 ， 
准确 地 说 ， 融 是 操 作 系 统 内 核 也 无 法 预料 ， 看 上 
去 很 像 随机 分 配 页 面 。 这 里 就 充分 显示 了 内 核 这 
个 主子 直接 操作 、 窜 理 内 存 ， 对 全 部 内 存 范围 有 
使 用 管理 权限 ， 知 道 每 一 个 进程 的 实际 内 存 究竟 
分 配 在 哪里 。 同 时 ， 也 充分 体现 了 用 尸 进程 一 一 
奴才 ， 不 知道 目 己 实际 使 用 的 内 存在 哪里 。 内 核 
代码 及 所 有 进程 的 物理 内 存 分 布 完 全 由 内 核 掌 
至 ， 实 现 了 主 妈 机 制 。 


具体 技术 细 克 已 经 在 6.3 了 和 6.4 世 详细 讲解 


it ° 


图 9-2 是 内 核 及 用 户 进程 分 页 的 原理 示意 图 。 


9-2 内核 及 用 户 进程 分 页 示意 


9.3.2 ”特权 级 


特权 级 主要 是 依托 CPU 硬件 提供 的 保护 模 
式 ， 看 眼 点 在 “ 段 "， 在 所 有 的 段 选择 符 的 最 后 两 
位 标识 特权 级 ， 最 终 影响 的 是 段 选 择 符 决定 的 
段 。 这 些 段 选择 符 包 括 CS、SS、DS、ES、FS 和 
GS。 特 权 级 影响 的 范围 是 “ 段 "*， 这 是 天 键 扩 | 


对 于 Linux 操 作 系 统 而 许 ， 通 第 所 说 的 内 核 
态 、 用 户 态 ， 准 确 的 说 法 是 某 个 代码 段 、 某 个 数 
据 段 或 者 某 个 栈 段 ..…... 当 前 的 特权 级 或 者 是 0 级 ， 
thie ATP; 或 者 是 3 级 ， 也 吏 是 用 户 特 权 
级 。 


内 核 特 权 级 可 以 在 任何 条 件 下 执行 所 有 的 指 
令 。 操 作 系统 能 够 做 到 用 户 特权 级 不 能 执行 的 那 


些 可 能 颠 履 内 核 竺 权 级 的 指令 。 吏 CPU 便 件 而 
， 既 可 以 使 所 有 代码 部 处 于 内 核 符 权 级 ， 也 可 
以 使 所 有 代码 部 处 于 用 户 符 权 级 ， 如 图 9-3 所 示 。 


Hilt 


内 核 特权 级 


用 户 特权 级 
图 9-3 内 核 与 用 户 特权 级 示意 图 


但 是 ,一旦 计算 机 中 的 所 有 代码 部 处 于 用 户 
符 权 级 ， 局 特权 级 的 指令 器 永远 无 法 使 用 了 ， 这 
也 愉 恰 是 符 权 级 设计 阁 的 初 囊 。 男 外 ， 所 有 代码 
部 处 于 同一 个 特权 级 ， 很 容易 出 现 互 访 和 上 履 兰 的 
混乱 现象 ， 而 且 一 旦 出 现 混 乱 束 非常 麻烦 。 


操作 系统 的 设计 痢 都 是 顶级 聪明 的 人 ， 当 然 
` 会 做 这 种 苇 事 。 他 们 会 把 操作 系统 内 核 代码 设 
计 为 高 特权 级 ， 把 用 户 进程 代码 设计 为 低 特权 
级 。 这 样 ， 内 核 束 可 以 执行 所 有 的 指令 ， 而 用 户 
进程 则 不 能 ， 再 一 次 体现 了 主 双 机 制 。 


9.3.3 ly 


操作 系统 和 用 户 程序 运行 起 来 后 ， 计 算 机 中 
的 用 户 特 权 级 和 内 核 特 权 级 的 代码 、 数 据 频 系 交 
荐 出 现 ， 这 是 因为 有 特权 级 的 转换 。Intel 的 CPU 
提供 了 几 种 转换 方法 ，Linux 0.11 使 用 的 主要 方法 
是 中 断 。 通 过 中 断 和 中 断 返 回 ，Linux 0.11 实 现 了 
特权 级 之 间 的 转换 。 图 9-4 形 象 地 表示 了 中 断 所 导 
致 鸭 特权 级 翻转 。 


下 面 我 们 详细 讲解 为 什么 中 断 技 术 能 实现 特 
权 级 的 转换 。 


在 我 们 看 来 ， 计 算 机 中 最 重要 的 三 件 事 束 古 
执行 序 、 可 识别 、 可 预见 。 


我 们 就 从 执行 序 开始 分 析 。 图 9-5 是 计算 机 程 
序 执行 序 的 分 类 示意 图 。 


0 核 特 权 级 


3 用 户 特权 级 


9-4 中 断 导 致 特权 级 翻转 示意 图 


执行 序 
ee aT 
无 返回 有 返回 
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9-5 程序 执行 序 的 分 类 示意 图 


首 爷 ， 在 计算 机 里 的 执行 序 有 顺序 和 分 文 两 
种 。 顺 序 执行 序 是 靠 CPU 中 的 程序 计数 器 PC 上 自动 
过 加 实现 的 。 每 执行 一 条 指令 ，PC 束 目 动 秦 加 ， 
PC 和 指令 指针 IP 或 EIP 联 手 ， 形 成 顺序 执行 序 。 
除 此 之 外 ， 还 有 分 文 ， 分 文 驻 分 无 返回 分 文 和 有 
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跳 轩 之 后 还 要 返回 ， 这 束 古 画 数 调用 和 中 断 。 更 
三 义 的 说 法 古 调 用 子 程序 。 这 种 情况 下 执行 完 子 
程序 的 操作 之 后 ， 还 要 回 到 调用 指令 的 下 一 行 继 
续 执 行 。 回 到 调用 指令 的 下 一 行 的 前 提 古 必须 满 
足 “ 能 够 回 到 调用 指令 的 下 一 行 ”， 因 此 需要 你 留 
执行 调用 指令 的 状态 。 这 吏 定 所 谓 的 现场 你 护 ， 
实质 就 是 保存 标志 着 CPU 和 内 存 运 行 状态 的 相关 
寄存 天 的 值 。 等 到 调用 结束 后 ， 再 恢复 现场 ， 返 


回调 用 指令 的 下 一 行 继续 执行 。 从 这 个 角度 看 ， 
中 断 和 函数 有 非常 像 的 地 方 。 对 程序 的 设计 者 而 
言 ， 二 着 的 老 别 在 于 走 人 否 可 预见 ， 由 此 寻 致 玩法 
有 重大 区 别 。 


函数 的 调用 指令 十 程序 设计 者 编写 的 ， 对 程 
序 设计 者 是 可 预见 的 ， 对 于 函数 调用 的 保护 动作 
也 十 可 预见 的 。 中 断 技术 最 初生 因为 解决 外 设 便 
件 的 IO 问题 而 发 明 的 ， 后 来 又 出 现 了 模仿 硬件 中 
断 的 技术 路 线 发 明 的 软 中 断 ， 方 法 十 类 似 的 。 何 
而 言 之 ， 中 断 对 于 操作 系统 的 设计 着 来 说 征 不 可 
预见 的 ， 随 时 可 能 会 有 一 个 新 的 事件 在 原 有 的 执 
行 序 不 可 预见 的 情况 下 切 进 来 ， 打 断 原 有 的 执行 
序 ， 所 以 叫 “ 中 断 ”。 


由 于 中 断 的 发 生 不 可 预见 ， 傈 护 现场 的 任务 
不 可 能 由 程序 员 完 成 ， 只 能 由 CPU 硬件 完成 ， 实 
际 上 相当 于 是 “硬件 的 callj”。 回 想 一 下 第 2 章 讲 到 
的 如 下 代码 : 


// 代 码 路 人 径 : kernel/fork.c 


int copy_process (int nr,long ebp,long edi,long esi,long gs,long 
none, 


long ebx,long ecx,long edx, 
long fs,long es,long ds, 


long eip,long cs,long eflags,long esp,long ss) 


最 后 一 行 参数 long eip,long cs,long eflags,long 
esp,long ss 在 调用 之 前 根本 找 不 到 传 参 。 不 论 是 产 
代码 还 是 反 汇 编 代码 ， 部 无 法 找到 传 参 的 代码 ， 
也 看 不 到 任何 压 栈 动作 或 将 其 他 数据 变 成 栈 的 操 


作 ， 然 而 却 能 正确 运行 ， 实 在 让 人 人 费解， 原因 整 
征 copy_process 的 调用 源 于 0x80 中 断 ， 这 5 个 参数 
是 CPU 硬 件 压 栈 。 注 意 ， 这 5 个 参数 的 顺序 与 Intel 
IA-32 手 册 中 介绍 的 CPU 硬件 压 栈 顺序 完全 一 致 。 
这 了 吏 是 中 断 的 特征 。 中 断 服 务 程序 执行 结束 ， 目 
然 也 要 “硬件 的 ret” 


iret ° 


不 知 大 家 是 否 发 现 ， 上 面 讲解 的 中 断 执行 过 
程 隐 含 着 另 一 个 特点 ， 丈 是 中 断 与 普通 的 call] 有 着 
很 大 的 不 同 。 普 通 的 call 似 乎 是 沿 着 内 存 的 地 
址 “ 平 着 ”“ 滑 ”到 被 调用 人 位置。 中断 则 不 然 ， 似 乎 
是 脱离 了 内 存 ， 通 过 CPU 硬件 “ 翻 ? 到 内 存 中 另 一 
处 中 断 服务 程序 的 位 置 。 


普通 call 的 这 个 特点 对 于 编写 一 般 的 程序 没有 
任何 问题 ， 但 对 于 编写 控 作 系统 这 样 的 压 层 系统 


软件 却 会 市 来 致命 的 问题 。 当 用 户 需 要 使 用 内 核 
的 系统 调用 代码 时 ， 如 采用 普通 的 call 殉 能 实现 ， 
束 等 价 于 用 户 程 序 可 以 随意 访问 操作 系统 内 核 ， 
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离 了 主 双 机 制 ， 必 将 导致 整个 系统 混乱 。 


中 断 通 过 CPU 硬件 “ 翻 ? 到 中 断 服 务 程 序 的 特 
征 引 起 了 操作 系统 设计 者 的 注意 。 当 中 断 通过 
CPU 的 硬件 “ 翻 " 时 ，CPU 硬 件 的 设计 者 借 此 机 会 
让 CPU 翻转 了 各 个 段 的 特权 级 ， 使 中 断 成 为 用 户 
特权 级 和 内 核 特 权 级 之 间 翻 转 的 阶梯 。 除 此 之 
外 ， 中 断 技术 还 有 一 个 重要 的 特征 ， 就 是 能 够 让 
便 件 的 信号 直接 切 进 来 。 对 操作 系统 的 调度 而 
言 ， 最 重要 的 就 是 时 钟 中 断 。 
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目 愿 把 CPU 的 使 用 权 交 还 ， 别 无 他 法 。 


有 了 僻 件 的 时 钟 中 断 束 完全 不 一 样 了 。 时 钟 
中 断 束 像 操作 系统 内 核 手 中 象征 王权 的 径 铀 ， 根 
本 不 与 进程 协商 ， 时 间 一 到 ， 二 话 不 说 ， 强 行将 
进程 的 执行 序 斩 断 ， 村 回 CPU 的 使 用 权 ， 行 使 主 
子 的 特权 ， 体 现 主 奴 机 制 。 


9.4 建立 主 双 机 制 的 决定 性 因 系 一 一 
SCHL 


到 此 为 止 ， 主 双 机 制 似乎 已 经 表述 得 很 好 
了 。 只 是 有 一 个 问题 仍然 无 法 解释 : 用户 程序 是 
程序 ， 操 作 系统 也 征程 序 ， 用 的 是 同一 个 CPU > 
同一 套 指令 集 ， 为 什么 操作 系统 内 核 程 序 能 用 的 
Ho, APR mi Nee We? 答案 似乎 是 内 核 的 
等 权 级 比 用 户 程序 的 特权 级 高 。 进 一 步 问 : 为 什 
么 内 核 程序 能 获得 高 特权 级 ， 而 用 户 程 序 束 不 能 
呢 ? 


BANA, KEREN! 


计算 机 开机 局 动 的 时 候 是 实 模式 ， 实 模式 没 
有 特权 级 的 概念 。 这 时 操作 系统 内 核 开始 加 载 。 
正常 情况 下 ， 此 时 不 应 该 有 BIOS、 操 作 系统 以 外 
的 任何 程序 。 当 操作 系统 的 局 动 程序 打开 PE 的 时 
候 ， 特 权 级 状态 必须 是 最 高 特权 级 ， 人 否则 ， 有 一 


部 分 指令 将 永远 无 法 使 用 。 


这 是 非常 关键 的 时 刻 ! 操作 系统 的 设计 者 就 
征 利 用 这 个 最 有 利 的 时 间 ， 以 时 间 换 特权 ， 移 霸 
占 所 有 符 权 ， 并 充分 利用 这 些 特权 ， 创 建 进程 。 
因为 所 有 的 进程 都 是 操作 系统 直接 或 间接 创建 
的 ， 所 以 ， 操 作 系 统 有 充分 的 条 件 和 机 会 把 进程 
的 特权 级 降低 。 一 旦 进程 的 特权 级 个 降低 ， 束 再 
也 无 法 翻 刁 ， 除 非 操 作 系 统 程序 代码 设计 错误 ， 
误 把 进程 的 特权 级 所 上 来 。 显 然 ， 操 作 系统 设计 


者 会 仔细 审查 这 类 错误 ， 并 认真 测试 ， 消 火 这 类 
错误 。 假 如 操作 系统 的 代码 没有 这 类 错误 ， 进 程 
一 旦 被 创建 ， 束 再 也 无 法 获得 内 核 特权 级 ， 只 能 
终生 为 奴 。 由 此 有 可见， 掌握 先 机 对 操作 系统 主 妈 
机 制 的 形成 有 着 决定 性 的 作用 。 


一 些 恶 意 程序 进入 计算 机 的 时 机 虽然 晚 于 操 
作 系 统 ， 但 它们 会 想方设法 利用 操作 系统 设计 上 
的 一 切 可 以 利用 的 漏洞 ， 变 被 动 为 主动 ， 抢 占 先 
机 。 一 旦 掌握 先 机 ， 马 上 获得 最 高 特权 级 ， 束 可 
以 为 所 欲 为 ..…… 有 一 类 病毒 ， 残 通过 这 一 点 ， 刊 
用 操作 系统 的 漏洞 ， 想 办 法 驻 留 到 硬盘 的 系统 引 
导 区 ， 甚 全 是 BIOS。 关 家 根据 本 书 前 面 讲解 的 原 

， 束 能 理解 ，BIOS 和 硬盘 的 系统 引导 区 程序 古 
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操作 系统 进入 了 内 存 ， 一 旦 它们 抢占 了 先 机 ， 获 
得 了 最 局 特权 级 ， 操 作 系 统 束 非常 及 烦 了 。 


9.5 ”软件 和 硬件 的 关系 


计算 机 分 为 主机 和 外 设 。 主 机 包括 CPU、 内 
存 和 总 线 ; 除了 主机 之 外 的 人 硬盘 、 软 张 、 光 驱 、 
显示 全 、 网 卡 等 都 是 外 设 。 因 为 ， 软 件 编程 无 法 
直接 控制 总 线 ， 所 以 ， 我 们 只 关注 主机 中 的 CPU 
和 和 内存 。 


主机 进行 的 是 运算 ;外 设 进行 的 是 数据 的 输 
入 、 输 出 和 数据 的 断 电 保存 。 


从 根本 上 讲 ， 用 尸 使 用 计算 机 是 为 了 解决 用 
户 的 运算 问题 。 用 户 运算 的 直接 体现 丈 生 用户 应 
用 程序 。 从 操作 系统 的 角度 看 ， 运 行 中 的 用 户 应 
用 程序 吏 是 用 户 进程 。 可 以 说 ， 用 户 进程 代表 了 
用 户 的 运算 。 


用 户 的 运算 需要 外 设 的 文 持 ， 首 移 需 要 键 

盘 、 便 盘 、 网 络 这 类 外 设 将 应 用 程序 及 需要 处 理 
的 数据 输入 主机 进行 运算 。 运 算 的 结 末 需要 显示 
磺 、 打 印 机 等 外 设 输 出 ， 需 要 硬盘 等 外 设 进行 断 
电 保存 和 转移 ， 或 者 驱动 其 他 设备 进行 工作 。 以 
人 硬盘 为 例 ， 操 作 系 统 将 硬盘 上 存储 的 数据 映 喘 为 
文件 ， 这 些 是 我 们 熟知 的 。 进 一 步 拓展 文件 的 概 
念 ， 从 外 设 上 的 数据 拓展 到 外 设 本 号 ， 如 键盘 、 
显示 古 也 被 拓展 为 字符 设备 文件 。 可 以 说 ， 文 件 
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9.5.1 非 用 户 进程 一 一 进 往 0、 进 程 1、 


shellj 井 程 


我 们 先 来 思考 一 个 问题 ， 所 有 的 操作 系统 都 
要 有 用 户 使 用 界面 ， 束 是 所 请 的 shell。Linux 0.11 
的 shell 是 由 shell 进 程 而 不 是 由 操作 系统 内 核 承 担 
的 。shell 明 显 是 一 个 操作 系统 的 功能 ， 为 什么 不 
是 由 内 核 而 是 由 进程 承担 ? 


仔细 思考 一 下 ， 我 们 会 发 现 ， 如 宁 Linux 操 作 
系统 只 是 用 于 个 人 计算 机 ， 由 内 核 承 担 shell 似 平 
也 没什么 不 可 以 。 考 虑 到 Linux 在 服务 器 领域 有 很 
大 的 发 展 空 间 ， 服 务 器 的 操作 系统 有 多 shell 的 需 
求 ， 这 样 看 来 ， 内 核 承 担 shell 不 划算 ， 最 好 是 由 
进程 承担 。 


然而 ，shell 的 进程 显然 不 能 由 普通 的 用 户 应 
用 程序 承担 。 比 如 由 一 个 围棋 程序 承担 shell， 显 
然 是 不 合适 的 。 围 覃 程序 本 喘 是 应 用 程序 ， 需 要 


shell 加 载 。 围 棋 程 序 目 喘 成 为 shell， 看 上 去 这 个 
操作 系统 从 始 至 终 一 直 有 一 个 不 可 退出 的 围棋 ， 
感觉 很 怪异 。 如 采 人 允许 这 样 的 围棋 程序 退出 ， 怠 
更 可 怕 了 。 一 旦 围棋 程序 结束 退出 了 ， 操 作 系 统 
PLFA shell 了 “。 没 有 shell 时 操作 系统 驶 是 一 
个 不 可 使 用 的 操作 系统 ， 有 什么 存在 价值 呢 ? 


由 此 可 见 ，shell 必 须 是 一 个 专门 为 操作 系统 
配套 设计 的 特殊 进程 ， 从 开始 接受 用 户 使 用 到 关 
机 ， 都 不 应 该 退出 。 


shell 的 本 质 是 用 户 界 面 程 序 ， 和 擎 控 的 是 显示 
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程 创建 机 制 症 由 父 进 程 创建 子 进 程 。 由 此 可 推 
汤 ，shell 的 父 进 程 必须 有 使 用 外 设 的 能 力 以 及 可 
用 的 外 设 环境 ， 可 以 推出 父 进程 束 应 该 是 进程 1 那 


样 的 进程 。 外 设 肯定 古 由 主机 掌控 的 ， 所 以 ， 所 
有 进程 都 必须 有 在 主机 中 运行 的 能 力 ， 可 以 推出 
进程 1 时 父 进程 吏 应 该 是 进程 0 那样 的 进程 。 


现在 ， 我 们 可 以 看 得 更 清楚 ， 第 2、3、4 章 讲 
解 的 进程 0、 进 程 1、shell 进 程 ， 就 分 别 对 应 主 
机 、 外 设 、 特 殊 的 外 设 一 一 用 户 弄 面 。 这 三 部 分 
也 恰恰 是 计算 机 宏观 构成 的 三 部 分 。 由 此 可 见 这 
三 个 进程 的 划分 离 意 深刻 ， 如 末 将 三 个 进程 合并 
为 一 个 进程 ， 束 不 能 清晰 地 表示 这 种 结构 。 图 9-6 
表示 了 进程 0、 进 程 1 及 shell 进 程 所 对 应 的 硬件 。 


| 计算 机 | AK 
| } 
= } 
| 主机 | | 外 设 
CPU/ 内 存 | | 键盘 /软盘 /硬盘 senses | 用 户 界面 
| + 
| 进程 管理 /内 存 管理 | 文件 系统 | 一 一 一 -字符 设备 文件 


[一 


9-6 ”进程 与 硬件 的 对 应 关系 示意 图 


9.5.2 文件 与 数据 存储 


从 前 面 划 廊 的 内 容 不 难 发 现 ， 虽 然 文件 系统 
涉及 的 代码 最 多 ， 儿 乎 占 了 总 代码 量 的 一 半 ， 但 
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间 非 第 大 ， 远 远大 于 内 存 的 存储 量 。 但 说 惠 奈 ， 
文件 也 吏 是 一 个 数据 的 存储 ， 便 盘 可 以 看 做 计算 
机 的 数据 仓库 。 人 存储 工作 虽然 手续 楷 杂 ， 但 相对 
于 运算 工作 而 言 ， 要 简单 得 多 。 而 且 索 洒 的 原因 
主要 走 便 盘 的 存储 量 非 党 六， 而 且 要 “以 碎 制 
偿 ”。 如 采用 简单 的 管理 方法 ， 所 需要 的 管理 数据 
量 束 很 六 ， 而 这 部 分 数据 既 占 用 了 硬 盆 的 空间 ， 
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优盘 空间 的 占有 量 ， 用 最 少 的 管理 数据 管理 最 多 
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广 扩 、 远 辑 块 位 图 、i 市 扩 位 图 等 一 整 侠 的 管理 结 
构 。 而 且 这 些 结构 还 要 涉及 进程 ， 守 致 文件 系统 
变 得 非常 楷 杂 “。 但 总 的 来 说 ， 文 件 代 表 存 储 的 数 
据 〈 也 代表 设备 ) ， 所 以 相对 于 运算 而 言 ， 还 是 
简单 得 多 。 

LAV > ER > RIK: 计算 级 存储 、 人 存储 
KIT > SEAS 


主机 中 有 内 存 ， 外 设 中 有 便 盘 ， 表 面 上 看 ， 
两 闭 的 功能 部 是 和 存储， 为 什么 还 分 成 主机 和 外 
设 ? 通常 的 说 法 是 ， 内 存 速度 快 、 价 格 高 、 容 量 
小 、 不 能 断 电 保存 ， 硬 盘 正 好 是 互补 的 。 


进一步 追问 : 如 于 索 别 仅仅 征 断 电 傈 人 存 ， 为 
什么 用 两 种 截然 不 同 的 管理 方式 来 管理 ? 操作 系 
统管 理 内 存 用 的 是 进程 、 分 页 、 特 权 级 、 表 .……… 
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节点 、 位 图 、 块 .………. 差 别 非 常 大 。 


从 外 形 上 看 ，CPU 和 内 存 是 两 种 完全 不 同 的 
妖 件 。 实 际 上 ， 它 们 必须 联合 起 来 才能 完成 计算 
机 中 最 重要 的 工作 一 一 计算 。 也 就 是 说 ， 计 算 发 
生 在 CPU 与 内 存 之 间 ， 即 发 生 在 主机 中 ， 仅 有 
CPU 是 无 法 完成 计算 的 。CPU 计 算 所 需 的 指令 在 
内 存 里 ， 计 算 结 果 也 要 放 在 内 存 中 。 不 仅 如 此 ， 
更 重要 的 是 ， 复 杂 的 计算 ，CPU 不 可 能 用 一 个 指 
令 完成 ， 需 要 在 内 存 中 安排 复 洒 的 算法 。 例 如 ， 
把 一 个 复 休 的 四 则 运算 式 转化 为 赤 波 兰 式 后 ， 在 


内 存 中 用 栈 操作 的 方式 形成 算法 ，CPU 和 闪存 联 
合 操 作 ， 最 终 取得 计算 结果 。 在 这 个 过 程 中 ， 我 
们 很 难 否 认 内 存 也 在 进行 “计算 ”内 存 有 存储 功 
能 ， 更 有 计算 功能 ， 是 计算 级 存储 。 再 看 看 便 
i, SOIR ia, 但 丝 又 看 不 出 计算 的 迹 
象 ， 走 非 音 纯粹 的 存储 ， 走 存储 级 存储 。 


计算 级 存储 比 存储 级 存储 多 了 “计算 ”。 计 算 
比 存储 复杂 ， 和 审理 信息 目 然 要 多 一 些 。 同 样 生 管 
E, BERT 点 这 均 方 法 ， 内 存 中 的 文件 
官 理 信息 要 比 硬 瑟 上 的 多 出 一 些 。 硬 到 上 的 文件 
官 理 信 息 束 定 为 了 存储 ， 找 得 到 、 不 出 销 束 行 。 
内 存 中 的 文件 管理 信息 吏 不 一 样 了 ， 除 了 这 此 要 
求 外 ， 还 要 执行 查找 等 操作 。 得 找 本 号 吏 是 计 
算 ， 所 以 内 存 中 的 管理 信息 是 市 有 “计算 ”意义 的 


文件 管理 信息 。 和 僵 瑟 上 的 文件 管理 信息 吏 征 一 本 
简单 的 数据 “库存 账 ”。 便 盘 本 喘 并 不 执行 得 找 运 
算 ， 碍 找 运 算 发 生 在 主机 ， 所 以 硬 一 不 需要 额外 
的 运算 管理 信息 。 


让 我 们 上 升 一 个 高 度 再 来 看 看 计算 。 可 以 看 
出 这 里 六 的 计算 也 可 以 分 为 两 尖 : 一 类 计算 征用 
尸 进程 的 计算 ， 也 就 是 用 户 程 序 的 计算 ， 胃 一 类 
计算 是 内 核 为 文件 系统 的 运行 所 做 的 计算 ， 这 关 
计算 与 用 户 进 程 的 计算 没有 直接 的 关系 。 为 了 更 
容易 看 消 楚 ， 我 们 称 参 与 用 户 进 程 计算 的 内 存 为 
全 运算 存储 ， 称 参与 内 核 为 文件 系统 的 运行 所 做 
运算 的 内 存 为 半 运 算 存 储 ， 称 在 内 存 中 完全 模拟 
外 设 、 没 有 任何 运算 的 内 存 为 无 运算 存储 。 


有 了 全 运算 存储 、 半 运算 存储 、 无 运算 存储 
的 概念 ， 束 容易 理解 为 外 一 个 概 仿 一 一 绥 冲 区 。 


缓冲 区 在 内 存 ， 走 介 于 全 运算 存储 和 无 运算 
存储 之 间 的 过 小 候 。 并 且 ， 在 操作 文件 的 过 程 
中 ， 如 在 目 邓 文件 中 查找 某 个 目 台 项 的 操作 ， 也 
尽 在 缕 冲 区 完成 的 。 由 于 其 具体 操作 是 进行 字符 
串 比较 ， 肯 定 古 一 个 运算 过 程 。 这 些 运 算 明 显 的 
不 是 用 户 程 序 的 运算 ， 所 以 缓 促 区 是 半 运 算 存 
iE e 


用 这 个 观 后 审视 内 存 ， 可 以 发 现 内 存 中 的 “起 
KREEK AGTER” CENTAGE TAK 
数据 区 ) ` SPRATT aA” CET 
往 于 绥 冲 区 ) 等 文件 系统 管理 结构 明显 也 是 服务 
于 半 运 算 的 。 我 们 可 以 把 这 些 管理 结构 所 占 的 内 


存 空间 (无 论 是 处 于 内 核 数 据 区 还 古 缓冲 区 ) A 
称 为 文件 系统 专用 缓冲 区 。 对 比 通 币 意 义 的 缓冲 
区 ， 我 们 可 以 看 得 更 清 莹 ， 两 个 缓冲 区 都 由 内 核 
控制 、 操 作 。 通 各 意义 的 缓 种 区 针对 的 是 进程 ， 
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反 过 来 看 ， 如 朱 没 有 这 两 个 缓冲 区 ， 外 设 的 
数据 与 内 存 和 直接 人 交互， 操作 系统 束 得 在 本 应 是 用 
户 进程 目 己 进行 计算 的 全 运算 存储 至 间 中 进行 针 
对 文件 系统 的 查找 等 计算 ， 全 运算 与 半 运 算 抄 在 
一 起 非 第 混乱。 更 麻烦 的 古 ， 用 户 进 程 的 全 运算 
源 于 用 户 程序 的 代码 ， 文 件 系统 的 半 运 算 产 于 操 
作 系 统 内 核 代 码 ， 内 核 代码 和 用 户 代 码 处 理 的 数 
据 痢 要 在 用 户 进 程 所 属 的 内 存 空间 操作 ， 有 人 悍 于 
主 双 机 制 。 


再 者 ， 绥 冲 区 还 有 一 个 作用 ， 束 是 共 诗 。 如 
果 绥 冲 区 中 有 一 个 进程 恋 入 了 某 个 文件 ， 其 他 进 
程 读 同样 的 文件 时 ， 可 以 共 至 绥 冲 区 中 的 文件 。 
没有 缓冲 区 ， 只 能 每 个 进程 谈 目 己 的 文件 ， 这 可 
能 造成 内 存 中 有 同一 文件 的 多 份 复制 。 换 铝 话 
说 ， 缓 促 区 共 至 有 内 存 中 只 有 一 份 复制 的 含义 。 


用 上 述 概念 考 罕 一 下 虚拟 盘 ， 不 难看 出 虚拟 
僵 吏 是 在 内 存 中 人 商 单 模拟 外 设 。 这 大 内存 空 间 的 
特征 征 无 运算 存储 。 这 类 内 存 空间 轴 射 的 不 是 文 
件 ， 而 征 外 设 ， 比 如 软盘 。 不 伦 这 个 软 强 实际 存 
储 的 数据 有 和 多少， 哪怕 只 有 1 kB， 也 要 把 整个 软 
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盘古 无 运算 存储 ， 所 以 用 户 进 程 真正 使 用 的 时 


修 ， 还 要 经 过 半 运 算 存 储 倒 一 授 手 ， 所 以 应 尽量 
不 用 无 运算 存储 。 


2. 级 促 区 的 设计 指导 思想 


在 设计 操作 系统 的 绥 冲 区 时 ， 要 求 确 你 多 进 
程 读 写 数据 的 正确 性 和 尽 可 能 局 的 效率 。 内 存 之 
间 的 数据 交互 速度 比 内 存 与 便 盘 之 间 的 数据 交互 
速度 快 2 一 3 个 量 级 ， 缓 冲 区 吏 在 内 存 中 。 从 数据 
流 癌 的 角度 看 ， 缓 冲 区 处 在 用 户 进程 与 便 蔓 之 
间 。 为 了 实现 正确 、 局 效 的 要 求 ， 绥 促 区 的 设计 
指导 思想 就 是 : (1) 要 使 数据 的 读 写 有 序 ; 
(2) 让 数据 在 缓冲 区 中 集 留 的 时 间 尽 可 能 长 。 能 
用 缓冲 区 中 的 数据 ， 束 尽量 用 缓冲 区 中 的 数据 。 
缓冲 区 中 实在 没有 用 户 进程 所 需要 的 数据 了 ， 再 
从 硬 各 上 读 取 数据 到 缓冲 区 。 操 作 系 统 中 与 缓冲 


区 有 关 的 设计 ， 痢 直接 或 间接 地 体现 了 这 个 指导 


思想 。 


为 了 实现 这 个 设计 指导 思想 ，Linux 0.11 设 计 
了 一 套数 据 和 相关 的 函数 ， 这 些 数 据 包 括 
hash table ~、b count ` b lock œ b dirt、*b data、 


b_dev ` b_blocknr ` b_uptodate ` b_wait...... 


用 *b_data 指 同 与 进程 进行 数据 交互 的 绥 促 
块 ， 用 b_dev 和 b_blocknr 指 定 将 要 读 写 的 文件 的 一 
个 数据 块 所 在 的 设备 号 和 块 号 〈 以 后 简称 为 硬盘 
块 ) ， 并 将 这 一 对 缓冲 块 、 硬 盘 块 挂 授 在 
hash_table 上， 形成 绑 定 关系。 依 此 类 推 ， 
hash_table 将 所 有 需要 读 写 的 硬盘 块 与 对 应 的 缓冲 
块 绑 定 ， 形 成 如 图 9-7 所 示 的 管理 关系 。 


图 9-7 缓冲 区 、 哈 硕 表 与 便 盘 块 的 管理 对 应 天 
系 示 意图 


当 用 户 进 程 要 进行 文件 读 写 操作 时 ， 并 不 一 
定 是 对 文件 的 所 有 数据 都 要 读 写 ， 操 作 系 统 通过 
对 文件 的 分 机， 确定 要 操作 哪个 硬盘 块 ， 用 b_dev 
和 b_blocknr 标 识 。 为 了 最 大 限度 地 提高 缓冲 块 数 
据 的 复 用 性 ， 此 前 的 文件 读 写 任 务 完 成 后 ， 与 硬 
盘 块 对 应 的 缓 神 块 中 的 数据 不 会 立即 被 清除 掉 。 
所 以 ， 执 行 新 的 文件 读 写 任务 时 ， 操 作 系统 会 移 
在 缓冲 区 的 管理 结构 hash_table 中 查找 ， 看 看 记载 


的 和 缓冲 块 对 应 的 硬盘 块 与 操作 系统 确定 需要 读 
SRR eee, ABAD, WUE i 
要 操作 的 人 硬盘 块 的 数据 ， 很 有 可 能 不 需要 读 盘 

了 。 根 据 “ 能 用 缓冲 区 中 的 数据 ， 束 尽量 用 绥 冲 区 
中 的 数据 ”这 个 指导 思想 ， 能 用 现成 的 数据 束 用 现 
BLA ° 


然而 ，b_dev 和 b_blocknr 这 两 个 字段 吻合 ， 只 
能 说 明 缓 冲 区 中 有 操作 系统 需要 操作 的 硬盘 块 对 
应 的 缓冲 块 ， 并 不 等 于 缓冲 块 中 的 数据 一 定 可 以 
使 用 ， 因 为 这 个 绥 冲 块 中 的 数据 有 可 能 已 经 无 
效 。 比 如 说 茶 个 文件 的 内 容 已 经 全 部 被 删除 ， 那 
么 这 个 文件 “残存 ”的 缓冲 块 中 的 数据 还 在 ， 缓 剖 
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为 了 解决 这 个 问题 ， 哥 作 系 统 设 置 了 一 个 
b_uptodate。 当 它 的 值 为 1 时 ， 说 明 组 冲 块 中 的 数 
fa AY, BT DLE peel, ANA Pea T; 
如 琳 为 0， 说 明 该 缓 促 块 中 的 数据 无 效 ， 不 能 直接 
使 用 ， 还 需要 从 硬盘 块 中 读 出 新 的 数据 ， 缓 冲 块 
才能 使 用 。b_uptodate 对 于 读 操 作 尤 为 重要 。 在 硬 
盘 块 中 的 数据 读 入 组 促 块 后 ， 操 作 系 统 的 中 断 服 
务 程序 束 把 b_uptodate 设 置 为 1， 表 示 该 缓冲 块 中 
的 数据 此 时 已 经 有 效 。 在 新 申请 一 个 缓冲 块 时 ， 
b_uptodate 束 会 彼 设 置 为 0， 表 示 绥 冲 块 中 的 数据 
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在 操作 系统 设计 痢 看 来 ， 用 户 进 程 将 数据 写 
， 其 实 束 古 控 作 系 统 将 用 户 进 程 的 数据 写 入 绥 
冲 区 。 缓 冲 区 中 的 数据 什么 时 候 真正 写 到 人 硬 副 上 


去 ， 由 操作 系统 决定 。 换 名 话说， 用 户 进程 的 数 
据 写 盘 是 分 两 步 进行 的 ; 第 一 步 ， 操 作 系 统 将 用 
户 数据 写 入 缓冲 区 ， 并 尽 可 能 保留 在 缓冲 区 ， 尽 
可 能 复 用 ; 第 二 步 ， 操 作 系 统 适时 写 盘 。 这 两 步 
通常 不 是 连续 执行 的 ， 中 间 可 能 会 有 一 个 停顿 。 
为 了 让 操作 系统 在 停顿 后 仍 能 够 高 效 地 同步 缓冲 
区 中 的 数据 ， 避 免 不 必 要 的 同步 ， 操 作 系 统 设 计 
者 设计 了 b_dirt。 其 作用 就 是 标识 此 前 操作 系统 曾 
将 用 户 进程 的 数据 写 入 缓冲 块 中 ， 改 变 了 缓冲 块 
中 的 数据 。 将 其 值 设 置 为 1， 表 示 所 管理 的 缓冲 块 
中 的 数据 需要 同步 到 硬盘 上 。 等 到 操作 系统 将 绥 
冲 块 中 的 数据 同步 到 硬盘 后 ， 把 该 字段 改 为 0。 


注意 ， 写 操作 和 读 操作 还 不 太一 样 。 如 条 十 
读 控 作 ， 而 且 绥 冲 块 中 没有 现成 的 数据 ， 束 只 


从 便 盘 块 中 进行 谈 取 ， 而 且 是 立即 该 取 ， 因 为 用 
户 还 在 等 行使 用 这 些 数 据 。 与 换 作 则 人 不同， 用 户 
进程 并 不 知道 所 谓 的 写 盘 其 实 只 下 将 数据 写 到 组 
冲 块 中 ， 缓 剖 块 中 的 数据 什么 时 候 同 步 到 硬 玛 ， 
完全 由 操作 系统 酌情 而 定 。 在 开始 同步 工作 前 ， 
印 使 b_dirt 已 经 为 1， 如 还 需要 往 这 个 缓冲 块 中 继 
伟 写 入 数据 ， 仍 然 可 行 。 将 来 操作 系统 只 同步 最 
终 的 数据 ， 这 也 坪 缓冲 区 设计 指导 思想 的 另 一 种 
体现 。 


为 了 体 证 效 据 谈 写 的 正确 性 ， 必 须 确 你 数据 
读 写 的 有 序 。 比 如 ， 不 能 在 缓冲 块 数据 同步 到 便 
副 块 的 同时 ， 还 在 癌 这 个 缓冲 块 中 写 靳 的 数据 。 
b_lock 下 起 这 个 标识 作用 。 在 同步 绥 冲 块 之 前 ， 
必须 把 这 个 缓冲 块 加 后 ， 即 b_lock=1。 控 作 系 统 


内 核 见 到 这 个 标志 ， 束 不 再 将 进程 的 数据 写 入 这 
个 缓冲 块 中 。 这 样 在 同步 的 过 程 中 ， 缓 冲 块 中 的 
数据 不 会 发 生 任 何 变化 ， 确 保 同 步 结 束 时 ， 缓 冲 
块 与 对 应 的 便 盘 块 中 的 数据 是 一 致 的 。 也 束 是 说 
读 与 缓冲 块 与 同步 效 据 这 两 步 损 作 不 能 同时 进 
行 。 当 b_lock 设 置 为 0 时 ， 只 人 允许 操作 系统 进行 进 
程 与 组 促 块 间 的 数据 交互 ， 当 b_lock 设 置 为 1 时 ， 
只 允许 操作 系统 进行 便 盘 与 缓冲 块 辣 的 数据 交 
互 。 这 样 束 能 避免 同时 操作 。 


当 缓冲 块 被 加 锁 时 ， 仍 有 其 他 进程 需要 与 被 
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据 ， 所 以 操作 系统 只 有 将 这 样 的 进程 挂 起 ， 切 换 
到 其 他 进程 去 执行 ， 并 用 冲 _wait 指 癌 被 挂 起 的 进 


程 ， 以 便 缓 名 块 解锁 后 唤醒 被 挂 起 的 进程 。 当 需 
要 与 彼 加 泉 的 缓 促 块 进 行 数据 交互 的 进程 不 止 一 
个 时 ，*pb_wait 实 际 上 指 同 的 是 最 后 一 个 申请 与 被 
加 饼 的 缓冲 块 进行 数据 交互 的 进程 ， 其 余 的 进程 
按 序 形成 一 个 隐 舍 的 队列 ， 如 图 9-8 所 示 。 


进程 等 待 队列 Fa ”进程 b 


a on 是 加 
*b_wait 
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A 9-8 多 进程 访问 设备 文件 时 的 状态 示意 图 


当 一 个 进程 需要 与 硬盘 进行 数据 交互 时 ， 操 
作 系 统 首 移 过 历 缓冲 区 的 管理 结构 哈 硕 表 。 如 采 


通过 哈 希 表 找 到 现成 的 缓冲 块 ， 哪 怕 它 还 被 其 他 
进程 使 用 着 ， 只 要 数据 有 效 ， 就 完 用 这 个 现成 

的 。 用 现成 的 就 不 用 从 硬盘 块 中 读 取 数据 ， 比 操 
作 人 硬盘 划 算得 多 。 实 在 是 找 不 到 现成 的 ， 再 申请 
一 个 空闲 的 缓冲 块 。b_count 就 是 缓冲 块 是 否 在 空 
闲 状 态 的 标志 。 事 实 上 ， 可 能 有 多 个 进程 提出 申 
请 ， 需 要 与 同一 个 缓冲 块 进行 数据 交互 ， 每 增加 
一 个 提出 申请 的 进程 ，b_count 就 加 1， 反 之 就 减 
1。 如 朱 b_count 最 后 被 削减 为 0， 说 明 这 个 缓冲 块 
没有 被 引用 ， 它 就 是 空闲 缓冲 块 。 


A SEES, UM IRAE PRUE T A att 
所 要 读 写 的 数据 与 硬盘 对 应 数据 的 一 任性 ， 开 且 
实现 了 尽 可 能 的 局 将 。 


下 面 我 们 讲解 一 下 文件 系统 和 进程 的 男 一 个 


连接 点 一 一 管道 。 


3. 利 用 文件 系统 实现 进程 间 通 信 一 一 管道 


官 道 旦 进程 间 通 信 的 一 种 方式 ， 位 于 和 内存， 
征 内 存 中 的 概念 。 柯 惨 的 是 ， 管 道 不 征用 内 存 管 
理 的 方式 进行 管理 的 ， 而 征用 文件 系统 的 管理 方 
ARE HEU ° AENA? 
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流动 ， 如 采 采 取 直 接 区 互 的 方式 ， 显 然 违 育 了 这 
个 设计 指导 思想 。 怎 样 做 才能 使 效 据 合 理 地 跨越 


进程 的 体 护 边界 进行 流动 ， 既 实现 进程 间 通 信 ， 
又 不 破坏 操作 系统 对 进程 边界 的 保护 ? 


仔细 分 机 ， 我 们 吏 会 发 现 对 于 进程 来 说 ， 文 
件 和 是 一 种 每 个 进程 都 可 以 访问 的 等 产 。 换 句 话 
说 ， 文 件 对 进程 而 言 是 共 孚 的 。 如 打 将 进程 间 需 
要 通信 的 数据 以 文件 作为 中 转 站 ， 多 个 进程 同时 
访问 一 个 文件 ， 有 的 进程 写 数据 、 有 的 进程 读数 
据 ， 束 可 以 实现 进程 间 彼 此 的 数据 传输 。 这 么 做 
丸 满 足 了 进程 间 独 立 、 隔 离 的 基本 思想 ， 又 实现 
了 进程 之 间 通 信 的 功能 。 


然而 ， 文 件 代 表 的 是 外 设 ，CPU 与 外 设 的 通 
言 速 度 比 CPU 与 内 存 的 通信 速度 慢 2~3 个 量 级 。 
操作 系统 既然 可 以 在 内 存 中 虚拟 软盘 ， 肯 定 也 可 
以 虚拟 文件 。 在 内 存 中 虚拟 一 个 专门 用 作 进 程 间 


ERINI, AMEE E o RERNA TEE, 
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诗 受 内 存 级 通信 的 速度 。 由 于 管道 来 源 于 文件 ， 
官 理 方 式 目 然 与 文件 相同 。 这 吏 生 管道 为 什么 通 
MFRS SE © 


96 ”父子 进程 共享 页 面 


当 父 进程 创建 子 进 程 的 时 候 ， 操 作 系统 先 将 
父 进程 的 全 部 管理 数据 结构 复制 给 也 进程 ， 在 于 
进程 加 载 目 喘 的 代码 之 前 ， 分 至 父 进 程 的 代码 ， 
等 到 加 载 目 己 的 代码 后 ， 才 切断 共 至 父 进程 代码 
的 天 系 。 为 什么 不 在 于 进程 刚刚 创建 完毕 整 切 断 


这 个 关系 ? 


因为 此 时 的 子 进程 没有 任何 目 己 的 代码 ， 加 
载 目 己 代码 的 工作 也 是 需要 代码 的 ， 这 份 代码 按 
照 Linux 的 规则 ， 只 在 父 进程 中 有 ， 所 以 如 采 不 能 
共 至 父 进程 的 代码 ， 殊 过 加载 目 喘 代码 的 工作 也 
无 法 完成 。 


共 至 父 进 程 代码 的 机 制 为 很 多 服务 名 程序 近 
供 了 方便 。 有 既然 旬 许 共 诗 ， 束 应 该 允许 子 进程 实 
实在 在 地 执行 父 进 程 的 代码 ， 这 样 束 面临 父 于 进 
程 同时 使 用 同样 的 代码 、 数 据 的 局 面 ， 极 有 可 能 
造成 数据 混乱 。 为 了 避免 这 种 情况 的 发 生 ， 顺 理 
成 章 地 提出 页 写 保护 机 制 。 有 具体 技术 细 世 在 6.4.2 
方 讲解 过 。 页 写 你 扩 机 制 的 设计 指导 思想 十 防止 
多 进程 访问 共 孚 数据 导致 的 数据 委 乱 。 依 此 类 
推 ， 对 所 有 访问 共享 数据 (包括 内 存 的 、 外 设 
的 ) 可 能 导致 的 数据 混乱 ， 解 决 问题 的 基本 思路 
与 此 类 似 。 


9.7 ”操作 系统 的 全 局 中 断 与 进程 的 局 
ab Pat 


fas 


我 们 在 前 面 已 经 反复 多 次 近 到 中 断 。 中 断 对 
操作 系统 而 言 ， 其 重要 性 起 么 强调 都 不 过 分 。 下 
面 ， 我 们 沉 看 中 断 的 技术 路 线 同 前 延伸 ， 分 析 中 
iit =jtask_interruptible ` task_uninterruptible.Z [4] H 

在 本 书 的 第 1 章 束 讲 到 过 CLI 关 中 断 ， 我 们 知 
道 CLI 可 以 使 整个 操作 系统 不 能 收 到 中 断 信 和 号 ， 
等 于 天 了 整个 操作 系统 的 中 断 。 


task_interruptible 和 task_uninterruptible， 虽 然 


它们 名 字 里 谷 有 中断 字样 ， 却 看 不 出 它们 和 通 般 


意义 上 的 中 断 有 什么 直接 的 关系。 


退 踩 task_interruptible 和 task_uninterruptible 的 
使 用 ， 可 以 发 现 与 它们 关系 紧密 的 古 信 号 。 为 什 
么 和 信号 有 关系 的 参数 却 起 了 一 个 和 中 断 有 关 的 


名 字 ? 


回顾 中 断 技 术 可 以 知道 ， 中 断 技 术 发 明 的 最 
蕊 动机 是 为 了 避免 操作 系统 频 受 地 主动 轮 询 外 设 
的 IO 状态 ， 至 耗 主 机 等 源 。 中 断 扩 术 使 操作 系统 
由 主动 纶 询 变 为 被 动 啊 应 ， 极 大 地 降低 了 IO 过 程 
中 主机 资源 的 消耗 提高 了 运行 效率 。 


对 比分 析 中 断 和 信号 ， 可 以 看 出 信号 明显 走 
在 模仿 中 断 的 技术 路 线 ， 使 进程 间 的 沟通 由 主动 
轮 词 变 为 似 动 啊 应， 同样 大 幅度 减少 了 进程 间 汐 


通 引 起 的 操作 系统 的 消耗 ， 提 部 了 整体 运行 效 

率 。 比 如 ，shell 进 程 创建 了 一 个 子 进 程 ， 如 末了 于 
进程 退出 ， 理 论 上 ， 应 该 由 shell 释 放 子 进程 的 进 
程 管 理 结 构 ， 为 子 进 程 的 退出 做 善后 工作 。 问 题 
ve: shell A ARE Pitt BR OYE? 很 容易 想到 
A ioe A] Pete GIR e WRshell BE T 
儿 十 个 子 进程 ， 依 照 这 个 方法 ， 束 要 对 每 一 个 子 
进程 进行 定期 轮 询 ， 碍 看 是 人 否 有 子 进程 退出 ， 而 
且 不 论 有 儿 个 子 进程 要 退出 ， 即 使 一 个 要 退出 的 
于 进程 都 没有 ，shell 为 了 及 时 处 理子 进程 的 退 

出 ， 仍 然 要 闫 壹 地 轮 询 子 进 程 。 这 与 中 断 技术 友 
明之 前 ， 主 机 频 莹 轮 询 外 设 的 IO 情 形 极其 类 似 。 
操作 系统 的 设计 着 信用 中 断 的 扩 术 路 线 ， 设 计 了 
模拟 中 断 的 信和 号。 我 们 对 比 一 下 就 会 发 现 ， 两 者 


的 扩 术 路 线 非常 相似 。 两 彰 的 对 应 关系 如 图 9-9 所 
Eo 
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9-9 ”中断 与 信号 的 对 比 示意 
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可 以 发 现 ， 两 着 的 对 称 性 很 强 ， 有 很 强 的 可 
比 性 。 两 着 的 区 别 在 于 中 断 是 针对 整个 操作 系统 
的 ， 而 信号 十 针 对 进程 的 。 我 们 甚至 可 以 把 通 削 
的 中 断 看 成 整个 操作 系统 的 “全 局 中 断 ”， 信号 是 
进程 的 “局 部 中 断 ”。 这 样 可 以 更 清楚 地 看 到 信和 与 


的 本 质 及 铺 散 。 读 着 可 以 利用 对 比 的 方法 ， 深 入 
理解 、 掌 握 信 号 以 及 task_uninterruptible ` 


task_interruptible ° 


9.8 本章 小 结 


到 此 为 止 ， 我 们 已 经 把 操作 系统 的 设计 指导 
思想 这 一 章 的 内 容 讲 解 完毕 。 当 然 ， 一 个 操作 系 
统 古 非 第 复杂 的 ， 要 想 设 计 出 一 个 可 用 的 操作 系 
统 ， 仅 完 这 一 章 的 内 容 是 远 远 不 够 的 。 但 本 章 的 
内 容 对 帮助 读 痢 站 在 控 a 作 系统 设计 着 的 角度 全 面 
理解 、 把 握 控 作 系 统 仍 然 古 苑 分 的 。 


结束 语 


现在 是 全 书 的 结尾 ， 很 蜗 尖 能 在 此 和 您 见 
面 。 根 据 我 们 多 年 的 救 学 经 验 ， 能 在 这 里 和 您 见 
面 ， 说 明 您 在 操作 系统 方面 的 水 平 已 经 不 可 小 
W! 因为 操作 系统 实在 是 太 难 了 ， 绝 大 部 分 读 着 
中 途 束 已 经 放弃 了 。 如 果 您 还 感到 意犹未尽 ， 整 
请 您 回 过 尖 去 重 狐 阅读 ， 细 细 品 味 | 


“新 设计 团队 ” 傈 介 


本 书 由 中 科 院 的 指导 老师 杨 力 冬 先 生 市 倾 
的 “新 设计 团队 ”共同 完成 。 


作者 的 话 


梁 文 峰 
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在 我 看 来 ， 操 作 系 统 并 不 十 一 堆 产 代码 ， 而 十 一 
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要 打开 哪些 开关 ， 以 及 它们 打开 和 关闭 的 先后 顺 
序 和 相互 之 间 的 影响 等 。 随 着 了 解 的 不 断 深 入 ， 

整 部 机 妖 的 架构 和 设计 的 细 太 在 脑海 中 变 得 越 来 
越 清晰 ， 在 此 过 程 中 ， 有 时 候 会 改 现 目 己 对 机 瑚 
的 茶 个 部 件 的 运转 情况 不 太 清 苞 ， 于 是 整 会 根据 
目 己 对 机 禹 情况 的 了 解 推测 出 其 他 应 该 会 有 与 该 
部 件 的 运转 相配 合 的 其 他 部 件 ， 于 是 拿 出 “设计 图 
级 ”对 照 ， 结 来 与 推测 的 完全 一 致 。 


在 了 解 这 台 机 右 的 过 程 中 ， 也 会 不 断 思 卷 一 
Hela: 比如 ， 各 和 零 部 件 为 什么 要 这 样 届 计 ， 为 
什么 要 以 这 样 的 顺序 局 动 ， 局 动 后 为 什么 要 这 样 


吧 应 某 些 操作 ， 更 重要 的 征 ， 这 一 切 都 是 唯一 的 
吗 ， 有 没有 其 他 可 能 ， 后 东 又 会 是 什么 ? 


在 我 的 导师 杨 力 祥 老 师 的 帮助 下 ， 我 不 仅 对 
操作 系统 中 “十 什么 "有 了 全 面 的 认识 ， 而 且 对 “为 
什么 "有 了 体系 性 的 提高 。 在 我 看 来 ， 理 解 “操作 
系统 ”这 种 机 右 的 原理 的 过 程 与 理解 “汽车 *”、“ 坦 
oo” > “成 斗 机 ”等 这 些 机 絮 的 原理 的 过 程 在 本 质 虱 
ETFS © 
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用 “图 ”说话 ， 这 征 本 书 的 最 大 特色 。 的确， 
SRA ATU Be REMI SAT, B 
形 远 比 文字 更 能 让 人 理解 。 


有 时候 说 了 半天 ， 还 真 不 如 男 个 图 来 得 条 
蛙 。 书 中 包括 339 张 图 ， 每 张 图 部 是 精心 设计 和 绘 
制 的 ， 每 条 线 的 像素 宽度 和 位 置 都 是 经 过 精确 计 
算 的 。 受 不 礁 张 地 说 ， 这 本 书 不 仅 和 是 在 讲解 操作 
AS, Beetle FAR! DEN RA AT 
ASE, ASTER BORED ERB ARSE ! 


我 很 立 运 在 杨 老 师 的 指引 下 加 入 了 “ 狐 设 计 团 
队 ”， 又 很 幸运 地 与 新 设计 团队 的 伙伴 们 一 起 共同 
努力 完成 了 本 书 的 创作 。 虽 然 操 作 系统 息 电 脑 中 
最 最 复杂 的 程序 ， 几 乎 所 有 讲解 操作 系统 的 书 都 
让 人 望 而 生 萌 ,但 十 本 书 不 古 一 本 让 你 只 看 儿 页 
BAN RAP RZ RAAB, EMA HI Bee A 
BBURRIEAIB o RAIAR A SON Linux 
RAE ARSC ATA iT I a TS HT, As FY 


助 大 家 从 宏观 到 微观 上 去 认识 整个 操作 系统 。 虽 
然 99% 的 程序 员 一 靳 子 也 不 会 对 操作 系统 的 架构 
和 设计 进行 修改 ， 但 征 我 们 希望 每 个 程序 员 都 能 
从 本 书 中 或 多 或 少 地 得 到 一 些 局 发 ， 成 为 那 1% 。 


Bw 


操作 系统 在 计算 机 中 的 地 位 举足轻重 ， 但 坪 
它 的 学 习 难度 也 是 非常 大 的 。 很 多 人 学 习 操 作 系 
统 的 信心 和 决心 ， 季 币 会 极 各 种 学 习 等 料 中 密 密 
Fie HA SCF AN BEAR ASE Pe CAS TT Yat © 


我 所 在 的 “ 狐 设 计 团队 ?在 人 赋 究 Linux 操 作 系 统 
时 以 它 的 真实 的 运行 时 友 为 主线 ， 从 一 个 全 新 的 
钢 角 对 操作 系统 进行 了 重新 审视 ， 于 是 我 们 的 人 研 
FTE RAY E NRI SSH BOAR ° 


BA EMA EL AA VA T 
操作 系统 的 真实 运行 时 序 ， 并 根据 这 种 思路 完成 
了 本 书 。 通 过 书 中 精心 绘制 的 、 能 真实 反映 操作 
系统 运行 时 序 的 300 多 幅 图 ， 即 使 你 不 看 操作 系统 
的 源 代 码 ， 也 可 对 操作 系统 的 运行 有 初步 鸭 了 
解 。 当 你 深入 分 析 每 一 幅 图 的 细 广 时 ， 结 合 与 图 
相关 的 说 明文 字 ， 你 将 会 发 现 操作 系统 的 原理 与 
机 制 与 真实 的 运行 代码 十 无 颖 衔接 的 。 如 来 理解 
SAFI, ERIE ARSENE HB ce fi 


的 ， 它 的 每 一 个 动作 都 能 在 源 代码 中 找到 相应 的 
实现 。 


布 户 此 书 的 与 众 不 同 的 讲解 方式 能 给 你 市 来 
EIFS AE, AAE EDMEE FEREZ 


统 ， 少 走 弯 路 。 
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不 全 汇编 语言 和 C 语 言 能 看 全 操作 系统 的 源 
代码 吗 ? 你 可 能 认为 我 在 开 玩 突 ， 不 过 这 对 我 来 


说 并 不 是 玩 突 ， 而 是 事 实 。 我 是 环境 工程 /环境 化 
学 科班 出 刁 ， 连 谭 洛 强 先生 的 入 门 级 C 语 言 教程 
部 不 曙 读 过 。 一 年 多 前 ， 当 杨 老 师 说 让 我 和 大 家 
一 起 研究 和 学 习 操 作 系 统 时 ， 那 时 我 也 曾 仿 得 
过 。 好 在 杨 老 师 的 方法 很 独特 ， 在 他 的 指导 
我 很 快 束 入 了 1 。 书 中 的 内 容 古 我 学 习 控 作 系 统 
时 的 学 习 方法 和 思维 方式 的 真实 写照 。 


当 你 手 捧 这 本 书 时 ， 看 过 我 的 学 习 经 历 之 
E, PEDEN SOFAS MIC 
心 ? 本 书 独特 的 讲述 方式 、 精 心计 算 与 绘制 出 的 
图 片 ， 以 及 对 操作 系统 设计 原理 的 精辟 的 讲解 ， 
将 会 成 为 你 操作 系统 探秘 之 旅 的 指南 针 。 


àb 


宋 


这 本 书 里 面 有 很 多 和 内容 都 是 其 他 同类 书 中 不 
曾 探 讨 的 ， 比 如 : 操作 系统 生 如 何 进 入 已 速 过 程 
的 ?main 函数 竟然 不 是 操作 系统 的 起 始点 ? 内 核 
程序 和 用 户 程序 的 等 级 为 何如 此 和 森 产 ? 操作 系统 
中 居然 还 有 “主公 机 制 ”? 这 些 结论 不 但 生动 有 
趣 ， 而 且 对 于 理解 操作 系统 有 重大 的 意义 。 


然而 ， 这 并 不 仅 和 是 一 本 摘 述 绪论 的 书 。 本 书 
真正 的 精华 是 它 呈 现 出 的 一 种 体系 性 的 思考 万 
式 ， 这 种 思考 方式 指 寻 我 们 在 纷 烷 复杂 的 操作 系 


统 产 代码 中 理 清 了 它 的 核心 设计 思想 ， 然 后 我 们 
根据 这 种 思想 构建 了 目 己 的 理论 体系 ， 以 指导 实 
际 工作 和 解决 具体 问题 。 这 种 思考 方式 不 仅 适用 
于 操作 系统 ， 而 且 它 古 一 切 原 发 性 思 券 的 源 动 

力 。 这 种 思考 方式 是 对 儿 十 年 来 我 们 只 学 科学 绑 
论 却 忽略 科学 探索 方式 的 十 鸭 式 教育 的 突破 。 对 
操作 系统 的 理解 只 和 是 本 书 的 作者 们 在 这 种 思考 方 
式 下 解决 具体 问题 的 一 个 很 小 的 柔 例 。 这 上段 经 历 
犹如 一 段 美 妙 的 旅程 ， 和 是 一 个 友和 广 了 推论 、 探 

索 、 假 设 、 证 伪 、 构 建 体系 的 过 程 。 如 琳 你 现在 
已 经 准备 好 了 与 我 们 一 起 分 译 这 个 过 程 ， 那 么 ， 

视 你 旅途 居 快 ， 


联系 作者 


如 果 你 对 本 书 有 意见 或 建议 ， 欢 迎 你 通过 邮 
箱 : xsjlinuxOS@163.com 与 作者 联系 。 


